Namazu関係

xdoc2txtを利用した文書フィルターのサンプル


2007/01/19 開発(たぶん)終了

報告をすっかり忘れていましたが、Namazu2.0.15(win32用)からは「filter/win32/xdoc2txt.pl」としてxdoc2txtを使用したフィルターが標準で同梱されております。(xdoc2txt.exe自体は同梱されていません)

xdox2txt.plは私の作成(改造?)したフィルターをそのまま取り込んだもの、というよりは「xdoc2txtを使用したnamazu用フィルター」というコンセプトを取り込んで、namazuプロジェクトの臼田様により再作成された物です。
(私はperl使いと言うには、ほど遠い者なので、後半部分(臼田様の書き直した部分)の一部が何やっているのかわかんなかったりします。)

と、いうことで、当ページはとりあえずその役目果たしたと思いますので、このページでの開発はとりあえず一旦終了です。
(当ページは削除せずに記録として残しておきます。)
今後、xdoc2txt.plの開発、修正はnamazuのメーリングリスト等で行われることとなります。

使用方法/ダウンロード

hishida様作成のWindows用コマンドライン テキスト抽出ツールxdoc2txtを使用した、Namazu用MS-WORD文書フィルターのサンプルです。

*注意*
xdoc2txt自体の問題でない問題(ex.namazuのフィルターに使用した場合の不具合やnamazuのフィルターとしての使用方法等)についてxdoc2txtの作者様に問い合わせをすることはご遠慮下さい。

上記をダウンロードしファイル名を「msword2.pl」に変更した上でnamazuのフィルターのフォルダに配置して動作を確認できます。

当方の環境では
することでWORD95/97/2000のインデックス化に成功しております。

なお、当方ではWORDのインデックス化のみが必要だったためmsword2.plは
のみを対象に作りましたが、xdoc2txtは下記フォーマットに対応しているためそれらのフィルターを開発することも可能と思われます。

[対応フォーマット]
.rtf リッチテキスト
.doc WORD ver5.0/95/97/2000
.xls Excel ver5.0/95/97/2000
.ppt PowerPoint 97/2000
.jaw/jtw 一太郎 ver5
.jbw/juw 一太郎 ver6
.jfw/jvw 一太郎 ver7
.jtd/jtt 一太郎 ver8/9/10/11/12
.oas/oa2/oa3 OASYS/Win
.bun 新松/松5/松6
.wj2/wj3/wk3/wk4/123 Lotus 123
.wri Windows3.1 Write
.pdf Adobe PDF

msword2.plにはコメントでExcel/PowerPoint/PDF/一太郎に対応できるような記述を入れてありますが、PowerPoint以外の動作については未検証です。
(2004/03/06 追記):PowerPointのインデックス化が正常に出来ることを実行環境サーバーにて確認致しました。

履歴

2004/10/04 ver1.6 半角カナ変換にpost_codeconv()ではなくcodeconv::toeuc()を使用するように変更
2004/10/04 ver1.5 半角カナ,全角アルファベットが検索対象にならない不具合を改善
2004/05/17 1.4βでの動作確認が取れたので(他の方からの動作確認報告も頂いたので)正式版に変更。(内容はβから変更無し)
2004/04/06 ver1.4β Office/一太郎(8以降)文書にて著者名/タイトルを取得する機能を追加
2004/03/06 PowerPointでの動作検証が出来たため追記
2004/01/09 xdoc2txt公開ページの変更に伴いリンクを変更
2003/10/22 ver1.3 xdoc2txtにて変換出来ないファイル(壊れたファイル等)があるとmknmzが停止してしまう不具合の修正
         (ご報告&訂正案を頂いた上田様、ありがとうございます)
2003/07/23 ver1.2 win9x系で動作しない不具合の修正
2003/03/25 ver1.1 公開

戻る