PDFからテキストを抽出する方法


[Top]

PDF(Portable Document Format)は、Windows、Macintosh、UNIXの環境でAcrobat Readerを用いて閲覧することができますが、印刷イメージが崩れては困る文書を配布したり、改竄がやや困難なので技術文書などを配布したりする際に利用されます。ところが、最近困ったことに、公共機関などのWebページで盛んに利用されるようになってきました。これらはさまざまな環境からのアクセスを想定すべきであり、情報の閲覧できる者を限定してはならないはずです。PDFは、視覚障害者の閲覧を困難にしますし、Web閲覧中のAcrobatReaderの起動と閲覧はたいへん重い作業になるので、アクセシビリティの点からいっても好ましい状況ではありません。おそらく文書の作成、差し替えが容易であるから軽率に使用しているだけであろうとおもわれます。PDFを公開するならば、同等の情報をHTMLでも提供すべきでしょう。



PDFからテキストを抽出するには、とりあえず以下の4通りの方法があります。

  1. Acrobatをつかって抽出する方法

  2. pdf2html.exeをつかった方法

  3. Acrobat Access を用いた方法

  4. access.adobe.com による方法



なお、「編集不可」として保存されたPDFは、テキスト抽出ができません。

以前、印刷不可のxlsファイルの作成について調べた時に、Acrobatなら印刷不可という状態で保存できるということを知りました。実はAcrobatには、印刷不可のほかに「編集不可」という有名な保存方法があります。Acrobatなど、PDF形式のデータを生成するアプリケーションには、セキュリティ・データ保護のために、データを暗号化する機能があり、編集不可のデータにしているのです。
とはいっても、編集不可ファイルをテキスト化してしまうソフトが海外(日本語非対応)で以前はあったそうですし、、暗号化したから必ずしも安全とは言い切れない、ということはあります。作成する側は「PDFだから安全」とは考えないほうがよさそうです。



AcrobatSDK・PDFファイルの作成ほか





Acrobatをつかって抽出する


Acrobat5 は、RTF(リッチテキストフォーマット)での保存が可能です。RTFは、Microsoft Wordやワードパッド等で開くことができるので、容易にテキスト抽出できます。また、Acrobat5がインストールされていれば、Acrobat・AcrobatReaderのいずれでも、テキスト選択ツールが使用できますので、テキストエディタなどにコピー&ペーストするという手も可能です。テキスト選択ツールによる方法は、Acrobat4でも可能です。




pdf2html.exeを使う


これは、Acrobat5が必要ないのでありがたいDered B. Noonburg氏作のフリーソフトです。コマンドラインツールですが、ファイルを指定するだけなのでとても軽快に作業できます。変換するファイルが多い際などに重宝します。
生成されるテキストは、文字コードがEUCですので、EUCに対応したテキストエディタで開いてください。
ただし、試したところでは、画像からPDFに変換したものは、テキストにできないようです。pdf2image.exeというツールも同梱されていますので、画像として取り出します。その場合は、OCR等で解析してテキスト化することになってしまいます。





Acrobat Access を用いた方法


これもAcrobat5は必要ありません。無料ダウンロードできるAcrobat Reader4.x とおなじく無料ダウンロードできるAcrobat Access とを組み合わせることによって、テキスト化します。いずれもAdobe純正ツールです。ただし、日本語は文字化けを起こすことがありますので、その場合にはInterFont等のフォント変更ツールを用いて修正します。
Acrobat Reader は、バージョンが4.xだという点に注意してください。v.5をインストールした状態で試しましたが、Acrobat Accessをインストールできませんでした。
抽出結果には半角スペースが入りますので、テキストエディタの置換機能等で削除してください。

WinNT4.0, AcrobatReader4とAcrobatAccessで動作を確認しました。今回のテスト環境では文字化けを起こしませんでしたので、InterFontは使用していません。(2003.3.10)




access.adobe.com による方法


access.adobe.comには、

の2種類のサービスが提供されていますが、これについて、KeiYu HelpLabは、
access.adobe.comは、通常のPDF文書を読むことが困難な人のためのサービスです。単なるPDFのHTML/テキスト変換ツールとして利用しないでください。障害がない人からの送信がaccess.adobe.comに殺到すると、本当にサービスを必要とする人に多大な迷惑をかけることになります。
と書いていらっしゃいますが、同感です。使用方法の詳細も
KeiYu HelpLabの「PDFとアクセシビリティ」
にありますので、一読をおすすめします。現在のところ日本語には対応していないようです。





©2003 by Hajilyn's Papa;
Status: 2003-03-05; 2003-03-10; 2003-08-23;
E-Mail:awker@tcnweb.ne.jp