 |
高精度・超高速テキスト抽出ソフトウェア
MS-WordなどWindowsの文書ファイルから高精度かつ超高速にテキスト情報を抽出するSolaris/Linux/FreeBSD用のフィルタ・プログラムです。
実行形式のテキスト抽出ソフトウェアであり、NAMAZU(全文検索エンジン)と組み合わせてイントラネット上での全文検索システムを構築したり、携帯電話で添付ファイル付きメールを読み出すためのメールサーバーなどでご利用いただいております。 |
[ 優位性・特徴・動作環境 ] [ 制限事項 ] [ 主な利用方法・速度評価 ] [ 価格表・年間保守費 ] [ アカデミック価格での購入条件 ] [ 年間保守について ] [ 代理店情報 ] |
 |
| 1.Namazuを使った全文検索システム |
| 大量の情報が電子ファイル化されている今日において、全文検索システムは増々その重要性を増してきています。Namazuは、フリーソフトとして開発され、気軽に導入でき、高速検索が可能なことが特長です。全文検索システムは、一般に前処理として、全ファイルを走査してテキスト抽出を行い、文章を単語に区切り(形態素解析)、単語とファイル名を関連付けたインデックスを作成しますNamazuとDocCatを組み合わせて頂くことで、HTML、Textファイル以外に、Word、Excel、PowerPoint、一太郎、OASYS、Lotus
Word ProやPDFファイルまで検索対象にすることが出来ます。 |
 |
| 2.メールシステムの添付ファイル読出 |
携帯電話用サーバ型
現在、携帯端末・携帯電話などでメールを送受信するユーザが増加しています。他の人から送られてきたメールにはMS-Wordの添付ファイルが含まれることがあります。携帯端末ではシンプルな表示機能だけですが、デ変研TFライブラリを組み込んだサーバで処理すると、添付ファイルを参照することが出来ます。 |
|
携帯端末用クライアント
メモリ容量が比較的大きな携帯端末においては、クライアント側にデ変研TFライブラリを組み込むことにより、添付ファイルを読み出すことが出来る可能性があります。 |
 |
 |
DocCat Ver4.0 速度評価結果
(1)対象ソフトウェア
DocCat Ver3/FDFオプション for Linux
DocCat Ver4/PDFオプション for Linux
(2)テスト動作環境
OS : RedHat Linux 7.2
CPU : Pentium4 1.6G
メモリ : 256MB |
| 【試験データ】 (単位:MB・KB) |
| 項目 |
doc |
xls |
ppt |
pdf |
txt |
合計 |
| ファイル数 |
205 |
372 |
49 |
2573 |
2114 |
5313 |
| 元ファイル合計サイズ (MB) |
17.3 |
39.5 |
19.9 |
859.6 |
125.0 |
1061.3 |
| 元ファイル平均サイズ(KB) |
86.4 |
108.8 |
415.4 |
342.1 |
60.6 |
|
|
| 【DocCat Ver.3】 (単位:秒) |
| 項目 |
doc |
xls |
ppt |
pdf |
txt |
合計 |
| 合計処理時間 (秒) |
20.8 |
37.6 |
5.3 |
686.3 |
265.1 |
1051.2 |
| 1ファイルあたりの処理時間 (秒) |
0.10 |
0.10 |
0.11 |
0.27 |
0.13 |
0.70 |
|
| 【DocCat Ver.4】 (単位:秒) |
| 項目 |
doc |
xls |
ppt |
pdf |
txt |
合計 |
| 合計処理時間 (秒) |
6.0 |
5.3 |
0.7 |
51.5 |
73.9 |
437.34 |
| 1ファイルあたりの処理時間 (秒) |
0.03 |
0.01 |
0.01 |
0.14 |
0.03 |
0.23 |
|
■試験結果総括
上記、試験データの通、ファイル総数:5313ファイル合計約1GB相当のファイルに対しいて『DocCat』による【Ver3】と【Ver4】の速度評価を実施した結果、抽出処理時間は『DocCat
Ver3』の約17分(1015.2秒) に対して『DocCat Ver4』では約7分(437.34秒)という結果となる。従来比較の約2倍以上の高速化を
実現。 |
 |
[ 優位性・特徴・動作環境 ] [ 制限事項 ] [ 主な利用方法・速度評価 ] [ 価格表・年間保守費 ] [ アカデミック価格での購入条件 ] [ 年間保守について ] [ 代理店情報 ] |
| [ ページトップ ] |