エントリーの編集
![loading...](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/common/loading@2x.gif)
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント37件
- 注目コメント
- 新着コメント
![tettekete37564 tettekete37564](https://cdn.profile-image.st-hatena.com/users/tettekete37564/profile.png)
tettekete37564
PDFの中身は見た目のテキスト構造とは違う構造になってる事が多いのでピクセルレンダリングしてして段組構造をAIにでも判定させてOCRかけるのが一番安定しそうかな、と思う。
![dexia2 dexia2](https://cdn.profile-image.st-hatena.com/users/dexia2/profile.png)
dexia2
AcrobatのOCRは絶妙に精度が悪いので、結局自分でOCRをかけて再チェックしてます。量が多いので、GoogleDriveではなく、AzureのAPIを自分で叩いてる。Acrobatの精度が上がって欲しい......
![ht_s ht_s](https://cdn.profile-image.st-hatena.com/users/ht_s/profile.png)
ht_s
pdfじゃない&こんな高度な話じゃないけど右クリックや文章選択許さないサイトからhtmlタグつきのソース丸出しテキストChatGPT渡して「きれいにして」って言うだけでレシピの形に整えてくれるので助かってる。
![mohno mohno](https://cdn.profile-image.st-hatena.com/users/mohno/profile.png)
mohno
「PDFビューアーを開き、全選択し、コピーペースト」←これで取り出せるヤツはいいけど、何でPDF化したのか、コピペで完全に文字化けするパターンがあったんだよな。OCRしても精度が悪くて、結局手作業で全部入力した。
![strawberryhunter strawberryhunter](https://cdn.profile-image.st-hatena.com/users/strawberryhunter/profile.png)
strawberryhunter
素直に抜き出せる種類のPDFなら何も苦労は無いけど、そもそもアウトライン化されていたり、埋め込みサブセットフォントの何番目みたいな鬼畜なデータもあると聞く。全体を画像にする粗悪なPDFプリンタドライバもある。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
![アプリのスクリーンショット](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/entry/app-screenshot.png)
いまの話題をアプリでチェック!
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama
これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましい...
これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。 参考記事 導入は非常に簡単です。 pip install 'unstructured[pdf]' 実装も簡単です。 解析コード‥ from unstructured.partition.pdf import partition_pdf pdf_elements = partition_pdf("pdf/7_71_5.pdf") 表示コード‥ for structure in pdf_elements: print(structure) 結果‥ 残念ながら、2段組のカラムを正確に検出することはできませんでした。 Grobidを使うGrobidは、peS2oというオープンアクセス論文のコ
2024/02/24 リンク