論文を読んでいたらsupplementary materialとして提供されたdocxファイルの中にPDFが埋め込まれていた。本来はダブルクリックすると開けるはずなのだが、どうしても開くことができず困ったので解決策をメモしておく。 結論 1: docxファイルのファイル名を変更して拡張子をzipに変更する。 2: zipファイルを解凍するなどして word/embeddings 内にある oleObject1.bin を取り出す。(数字は異なる場合がある) 3: WSLなどのPython環境で以下のスクリプトを実行する。 import os str1 = b'%PDF-' # Begin PDF str2 = b'%%EOF' # End PDF with open('oleObject1.bin', 'rb') as f: binary_data = f.read() # Convert