■ DocCat導入事例 - 宮地鐵工所





■ 比較試験の結果

-- 現在DocCatをどのようにお使いいただいていますか。

千葉工場にある業務文書ファイルサーバの文書検索に供しています。検索対象は、Word、ExcelなどOffice系のファイル、PDF、一太郎など。検索エンジンとしては、namazuを活用。DocCatは、検索対象のファイルから文書中のテキストを抽出するフィルタとして使っています。ファイルサーバのOSはMiracle Linuxです。

-- 宮地鐵工所にとってのDocCatの最大の魅力は。

テキスト抽出の速さです。DocCatはテキスト抽出が速いから導入しました。実は、最初は、「namazuとOS付属の文書フィルタ(wvHtml)だけで何とかならないかな、その方が安いし」と思っていたのです。

しかしMiracle Linuxのセミナーでは、「デ変研のDocCatは優秀な製品です」と講師が語っていました。本当に優秀なのかどうか、自分の目で確かめようと思い、職場で一時的に余っていたパソコンを使って、比較調査しました。すると、びっくりするような結果が出ました。

■ なぜ480倍ものスピードの差が出たのか

-- どんな比較試験を行って、どんな結果が出たのですか。

「wvHtmlとDocCatに、Wordファイル15個(合計5MB)のインデックスを作らせて、速度を比較する」というという試験です。インデックスの作成には「対象ファイルからのテキスト抽出」と「抽出したテキストのインデキシング」という、2つの手順が必要です。この試験では、前者の「テキスト抽出」につき、wvHtmlとDocCatとで抽出の早さを比較しました。

試験の結果、wvHtmlはインデックス作りに4時間かかりました。一方、DocCatは30秒でした。実に480倍の開きです。2〜3倍の差なら、OS付属プログラムと商用製品の違いということで、まだ納得もいきますが、480倍とは…。

-- なぜ、そこまで差が出たのでしょうか。

あくまでも推測ですが、テキスト抽出対象のWordファイルの中には、罫線を多用しているファイルがあった。それが原因ではないかと思います。以下のような推測です。

  1. なぜ今回の比較試験でこれほど差が出たのか。おそらくWordファイルをテキスト抽出対象としたせいだ。プレーンテキストで比較していたとすれば、ここまで差がつくことはなかっただろう。

  2. ではなぜWordで、これほどの差が出たのか。それは、おそらく罫線のせいだ。

  3. wvHtmlは、もともとWordファイルをHTML化するツールなので、テキスト抽出とは本来関係のない罫線処理の部分で、かなり時間が取られているのだろう。そうであればインデックス作成に何時間も要するのも納得がいく。

もしかすると、これがDocCatとその他製品の違いかもしれないと思いました。

■ なぜDocCatは速いのか

-- どのような違いだと考えたのでしょうか。

イレギュラー・ファイルへの対応力の差。それが違いだと思います。プレーンテキストのテキスト抽出なら、ある意味、誰でも高速にできる。しかし罫線多用ファイルからテキストを抽出するときに、やはり、餅は餅屋ではないかと。

デ変研社長の畑中さんは、テキスト抽出技術というコア技術を極めつくすべく、その心意気を「変換道」という言葉で表現していると聞きます。そして前職のオムロンソフトウエア勤務時代から、コツコツと、あらゆるアプリケーションのあらゆるバージョンのファイルを変換し続けてきたとのことです。なるほど、それならイレギュラーに強いわけだと。

-- イレギュラーとは、たまにしか出てこないからイレギュラーと言います。そんなマニアックな例外は無視して、大ざっぱにwvHtmlでいいやという選択肢は?。つまり、「ごくたまに4時間かかってもいいじゃないか。だいたいはOS付属プログラムで何とかなる。それならタダだし」という。

wvHtmlがつまづいたと思われる罫線多用ファイル。罫線が多いと言っても、実はこの程度なのですね(右図参照)。これぐらいあれば、業務では普通に発生する罫線ファイルであり、「マニアックな例外」とは言えません。こうしたファイルのインデックス作成に何時間もかかっていたのでは困ります。



■ 比較試験の時のメモ書き

ちなみにこちらは、wvHtmlとDocCatを比較試験した際のメモ書きです。ご参考までに。

全文検索ソフトに関するメモ

- wvHtmlではインデックスの作成に時間がかかる。ファイルサーバの規模が大きくなると、インデックスの作成が一日で終わらない可能性もある。

- インデックスは /var/www/html/findfile/.index/<共有名>ディレクトリ下に できる。よって/varパーティションも、それなりにディスク領域を確保する必要がある。

例):製造部ISOのWordファイルを使って、ファイル容量に対するインデックスの所要量(作成時間とインデックスのサイズ)を調べる。
wvHtmlDocCat
Date: Tue Aug 21 08:04:34 2003 Fri Aug 22 13:48:52 2003
Added Documents: 1415
Size(bytes): 5,170,681(約4.9MB)5,218,297(約4.9MB)
Total Documents: 14 15
Added Keywords: 2,639 3,330
Total Keywords: 2,639 3,330
Wakati: chasen -j -F '%m' chasen -j -F '%m'
Time(sec): 14,546(約4時間) 30
File/Sec: 0.00 0.50
System: linux linux
Perl: 5.006 5.006
ver: 2.0.10 2.0.10


増田氏のメモ原文(クリックで拡大)


■ なぜ宮地鐵工所は文書検索システムを必要としたか

-- 宮地鐵工所のイントラネット文書検索システムのことについてお聞きしたいと思います。文書検索システムを構築したのはどういう経緯から?

以下のような経緯からです。
  1. かつては各部署ごとにWindowsNTファイルサーバが立っていた。 自分が欲しい情報が、どの部署のどのサーバに入っているのか分からなかった。

  2. これは、業務効率の低下を招く。改善が必要である。

  3. また今後、「団塊の世代」が大量退職する。続く世代へのスムーズな引き継ぎ(技術継承)の意味からも、情報を取り出しやすい形にまとめることが必要。

  4. そうした考えに基づき、バラバラのNTサーバを、千葉工場統一の一個のファイルサーバにまとめることにした。

  5. ファイルを体系的に管理するための、フォルダ作成やファイル名の名づけ方についても、きまりを作ろう、という意見もあった。しかし、そういうきまりは往々にして皆守らなくなる。なしくずし的に。

  6. やはり、検索エンジンを導入して、フリーキーワードで自由に検索できる方が、使い手にとって便利であろうし、情報を取り出しやすくするという当初の目的にもマッチすると思われた。

■ どういう基準で製品を選んだか

-- その文書検索システムを構築するための、検索エンジン(およびテキスト抽出フィルタ)はどういう基準で選びましたか。

最終的にnamazuを選びましたが、当初は商用パッケージ製品も検討していました。そうした製品は、検索エンジン、文書フィルタ、GUIなどがワンパックになっていて、取り回しが簡単に思われました。しかし商用パッケージには決定的な難点がありました。

-- どんな難点でしょうか。

価格があまりにも高すぎたことです。中には一式300万円近くかかる製品もありました。考えてもみてください。ファイルサーバ構成がLinux+Samba+OpenLDAPで極めてローコストなのに検索エンジンに300万円もかけることが可能かどうか。

-- そしてnamazuに行き着いたと。

はい、そうです。そして、文書フィルタの部分も、最初はOSの付属フィルタでまかなえないかと期待していましたが、冒頭に述べたとおり速度面の難があったので、DocCatをオープンソースと組み合わせて使うことにしたのです。ちなみにDocCatの価格は、稟議書の中で悪目立ちしない、常識的な価格でした。

■ 地道さが最強の参入障壁

-- 実際に使ってみてのご感想をお聞きしたく思います。namazuとDocCatの相性はいかがですか。

非常に良いです。namazu利用者のコミュニティでもDocCatはよく知られているようです。namazuのメーリングリストにもしばしば登場します。また、フィルタリング設定のソースコードには、DocCatが選択肢としてすでに用意されていました。

-- 現在、DocCatの使用感はいかがですか。

使用感はなく、普段は動いていることすら忘れていますが、そこがいいところでもあります。どんなファイルでも所定の時間内にインデックス作成が完了しています。地味なようで、すごいことだと感心しています。

畑中社長をはじめとするプログラマの皆様が、長年にわたり、あらゆるアプリケーションのあらゆるバージョンのファイル変換に地道に取り組んできた、その積み重ね。ノウハウと信頼の蓄積は、なまじっかな後発製品ではとても太刀打ちできないしょう。

通常のソフトウエアの場合、後発製品は、先発のいいとこ取り、悪いところ抜かしができるなど、後発ならではのメリットがあります。しかしテキスト抽出の場合は、基本的に先発製品が有利ですし。

■ 今後の期待

-- デ変研に今後の期待などあればお聞かせください。

まず製品面の期待を述べます。JPGやGIFなど画像ファイルのテキストデータを抽出する"GazoCat"、最近は半ば販売中止の様子ですが、復活させてくれると嬉しいです。客先からの受領文書や社内の保管文書には紙ベースのものも少なくありません。それらのスキャナ画像からテキストを抽出するツールとして、ぜひ活用したいと思っています。

会社としてのデ変研への期待としては、「継続は力なり」で、「言うは易し行うは難し」を実現する会社として、これからもがんばってほしいと思います。文書フィルタの老舗として、勝ち得た信頼は大きいと思います。その信頼を崩さぬよう、これからも『変換道』を邁進してください。期待しています。


※ 宮地鐵工所のWebサイト
※ 取材日時 2006年7月