csvに関するtohokuaikiのブックマーク (4)
-
PDFは扱いにくい PDFファイルをPythonで扱うのは大変です。 表がPDFの中に埋め込まれているケースも割とあります。 例えば 平成30年 全衛連ストレスチェックサービス実施結果報告書の中にはたくさんの表データが埋め込まれています。 例えばファイルの40ページの︻表14業種別高ストレス者の割合︼を抜き出したいと思ったとします。 この表を選択して、Excelにコピペしてみましょう。 コピーして、Excelに貼り付けます。 おや?うまくいかないですね。1つのセルの中に、全部のデータが羅列されてしまっています。 実はPythonを使ってこのPDF中の表を比較的簡単にcsvやExcelに変換することができます。 PythonでPDFの表をcsvに PythonでPDF内の表(テーブル)をcsvやexcelに変換する手順は2ステップです。 ステップ1. PDFから表をpandasのData
-
エクセルでCSVを保存? 変換? CSVファイルをエクセルで開くと壊れる?? 仕事でCSVファイルを扱うことがあります。しかし、﹁CSVの意味﹂を本気で教えてくれる人はなかなかいません。それは、﹁CSV﹂を本質的に理解するには、その前提となる知識が必要で、仕事中にそんな面倒くさい説明をするヒマがないからです。 今回は、本当にCSVのことを知りたいのに誰も教えてくれないとお悩みの初心者の皆さんのために、CSVとは何か、を徹底的に解説します。 ﹁リスト形式とCSV﹂完全マスターシリーズ︵この記事は第2回です︶8個の基本パターンで完全習得﹁リスト形式﹂の教科書 本気で理解したい初心者のためのCSV勉強会資料 CSVファイルとExcelの関係を本気で理解するための確認テスト10問 初心者のためのCSV取り込み事例演習教材︵勉強会資料︶ 初心者が﹁CSVで保存してアップ﹂を理解するのは意外と難しい
-
さて、前回記事﹁PHPでメモリ上に一時ファイルを作る﹂では、file_get_contents関数でCSVファイル全体を取得して文字エンコーディングの変換を行い、変換結果に対してfgetcsv関数を利用しました。しかし、CSVファイルが巨大な場合にはfile_get_contentsを使うとメモリ上限に引っかかってPHPが停止してしまいます。 もちろん、UTF-8のCSVファイルに対してfgetcsvを利用するのであれば、どんな大きなCSVファイルだろうと処理することが可能です。なぜなら、fgetcsvはファイルを1行単位で読み込む関数ですから、1行分のメモリ消費だけでファイル全体を読み込み続けられるからです︵正確にはストリーム上のデータはバッファリングされるので、バッファサイズ分のメモリは消費しますが︶。 それでは、巨大なSJISのCSVファイルをfgetcsvで処理したい場合はどうすれ
-
ここのところ、ECサイトの商品データや売上データをCSVファイルで扱う機会が多くなってきた。 そこで毎度悩まされるのが、ExcelでのCSVデータの扱いづらさ。世間一般的には、CSVファイルを開くツールと言えばExcel一択であるのに、OFFにすることができない自動変換のお陰で困った事態が引き起こされる。 具体的には、 電話番号の先頭の0が欠落する3桁以上の数値のカンマ区切りデータが通貨型に変換される ハイフン区切りの数値データが日付型に変換される などなど。 Excelで開くときにデータ区切りを指定して読みこめばいいのだが、開くたびにそれをするのも面倒で、秀丸でテキストファイルとして開いて編集することが多くなってきた。そんなとき、秀丸にCSVモードがあることを知ったので紹介。ちょっとデータを直したい時など、Excelより速くて重宝してます。 使い方 以下は、郵便番号データダウンロード
-
1