■ DocCat導入事例 - 宮地鐵工所
千葉工場にある業務文書ファイルサーバの文書検索に供しています。検索対象は、Word、ExcelなどOffice系のファイル、PDF、一太郎など。検索エンジンとしては、namazuを活用。DocCatは、検索対象のファイルから文書中のテキストを抽出するフィルタとして使っています。ファイルサーバのOSはMiracle Linuxです。 -- 宮地鐵工所にとってのDocCatの最大の魅力は。 テキスト抽出の速さです。DocCatはテキスト抽出が速いから導入しました。実は、最初は、「namazuとOS付属の文書フィルタ(wvHtml)だけで何とかならないかな、その方が安いし」と思っていたのです。 しかしMiracle Linuxのセミナーでは、「デ変研のDocCatは優秀な製品です」と講師が語っていました。本当に優秀なのかどうか、自分の目で確かめようと思い、職場で一時的に余っていたパソコンを使って、比較調査しました。すると、びっくりするような結果が出ました。
-- どんな比較試験を行って、どんな結果が出たのですか。 「wvHtmlとDocCatに、Wordファイル15個(合計5MB)のインデックスを作らせて、速度を比較する」というという試験です。インデックスの作成には「対象ファイルからのテキスト抽出」と「抽出したテキストのインデキシング」という、2つの手順が必要です。この試験では、前者の「テキスト抽出」につき、wvHtmlとDocCatとで抽出の早さを比較しました。 試験の結果、wvHtmlはインデックス作りに4時間かかりました。一方、DocCatは30秒でした。実に480倍の開きです。2〜3倍の差なら、OS付属プログラムと商用製品の違いということで、まだ納得もいきますが、480倍とは…。 -- なぜ、そこまで差が出たのでしょうか。 あくまでも推測ですが、テキスト抽出対象のWordファイルの中には、罫線を多用しているファイルがあった。それが原因ではないかと思います。以下のような推測です。
-- どのような違いだと考えたのでしょうか。 イレギュラー・ファイルへの対応力の差。それが違いだと思います。プレーンテキストのテキスト抽出なら、ある意味、誰でも高速にできる。しかし罫線多用ファイルからテキストを抽出するときに、やはり、餅は餅屋ではないかと。 デ変研社長の畑中さんは、テキスト抽出技術というコア技術を極めつくすべく、その心意気を「変換道」という言葉で表現していると聞きます。そして前職のオムロンソフトウエア勤務時代から、コツコツと、あらゆるアプリケーションのあらゆるバージョンのファイルを変換し続けてきたとのことです。なるほど、それならイレギュラーに強いわけだと。 wvHtmlがつまづいたと思われる罫線多用ファイル。罫線が多いと言っても、実はこの程度なのですね(右図参照)。これぐらいあれば、業務では普通に発生する罫線ファイルであり、「マニアックな例外」とは言えません。こうしたファイルのインデックス作成に何時間もかかっていたのでは困ります。
ちなみにこちらは、wvHtmlとDocCatを比較試験した際のメモ書きです。ご参考までに。
-- 宮地鐵工所のイントラネット文書検索システムのことについてお聞きしたいと思います。文書検索システムを構築したのはどういう経緯から? 以下のような経緯からです。
-- その文書検索システムを構築するための、検索エンジン(およびテキスト抽出フィルタ)はどういう基準で選びましたか。 最終的にnamazuを選びましたが、当初は商用パッケージ製品も検討していました。そうした製品は、検索エンジン、文書フィルタ、GUIなどがワンパックになっていて、取り回しが簡単に思われました。しかし商用パッケージには決定的な難点がありました。 -- どんな難点でしょうか。 価格があまりにも高すぎたことです。中には一式300万円近くかかる製品もありました。考えてもみてください。ファイルサーバ構成がLinux+Samba+OpenLDAPで極めてローコストなのに検索エンジンに300万円もかけることが可能かどうか。 -- そしてnamazuに行き着いたと。 はい、そうです。そして、文書フィルタの部分も、最初はOSの付属フィルタでまかなえないかと期待していましたが、冒頭に述べたとおり速度面の難があったので、DocCatをオープンソースと組み合わせて使うことにしたのです。ちなみにDocCatの価格は、稟議書の中で悪目立ちしない、常識的な価格でした。
非常に良いです。namazu利用者のコミュニティでもDocCatはよく知られているようです。namazuのメーリングリストにもしばしば登場します。また、フィルタリング設定のソースコードには、DocCatが選択肢としてすでに用意されていました。 -- 現在、DocCatの使用感はいかがですか。 使用感はなく、普段は動いていることすら忘れていますが、そこがいいところでもあります。どんなファイルでも所定の時間内にインデックス作成が完了しています。地味なようで、すごいことだと感心しています。 畑中社長をはじめとするプログラマの皆様が、長年にわたり、あらゆるアプリケーションのあらゆるバージョンのファイル変換に地道に取り組んできた、その積み重ね。ノウハウと信頼の蓄積は、なまじっかな後発製品ではとても太刀打ちできないしょう。 通常のソフトウエアの場合、後発製品は、先発のいいとこ取り、悪いところ抜かしができるなど、後発ならではのメリットがあります。しかしテキスト抽出の場合は、基本的に先発製品が有利ですし。
-- デ変研に今後の期待などあればお聞かせください。 まず製品面の期待を述べます。JPGやGIFなど画像ファイルのテキストデータを抽出する"GazoCat"、最近は半ば販売中止の様子ですが、復活させてくれると嬉しいです。客先からの受領文書や社内の保管文書には紙ベースのものも少なくありません。それらのスキャナ画像からテキストを抽出するツールとして、ぜひ活用したいと思っています。 会社としてのデ変研への期待としては、「継続は力なり」で、「言うは易し行うは難し」を実現する会社として、これからもがんばってほしいと思います。文書フィルタの老舗として、勝ち得た信頼は大きいと思います。その信頼を崩さぬよう、これからも『変換道』を邁進してください。期待しています。 ※ 宮地鐵工所のWebサイト ※ 取材日時 2006年7月 |