データ変換研究所
 
 
 
サイト内検索
データ変換研究所 テキスト抽出
デ変研 テキスト抽出 DocCat デ変研 テキスト抽出 DocCatPDFオプション デ変研 テキスト抽出 デ変研MFXライブラリ デ変研 テキスト抽出 デ変研TFライブラリ
DocCat DocCatPDFオプション
高精度・超高速テキスト抽出ソフトウェア 
MS-WordなどWindowsの文書ファイルから高精度かつ超高速にテキスト情報を抽出するSolaris/Linux/FreeBSD用のフィルタ・プログラムです。
実行形式のテキスト抽出ソフトウェアであり、NAMAZU(全文検索エンジン)と組み合わせてイントラネット上での全文検索システムを構築したり、携帯電話で添付ファイル付きメールを読み出すためのメールサーバーなどでご利用いただいております。
[ 優位性・特徴・動作環境 ] [ 制限事項 ] [ 主な利用方法・速度評価 ] 
[ 価格表・年間保守費 ] [ アカデミック価格での購入条件 ] [ 年間保守について ] [ 代理店情報 ]
主な利用方法
1.Namazuを使った全文検索システム
大量の情報が電子ファイル化されている今日において、全文検索システムは増々その重要性を増してきています。Namazuは、フリーソフトとして開発され、気軽に導入でき、高速検索が可能なことが特長です。全文検索システムは、一般に前処理として、全ファイルを走査してテキスト抽出を行い、文章を単語に区切り(形態素解析)、単語とファイル名を関連付けたインデックスを作成しますNamazuとDocCatを組み合わせて頂くことで、HTML、Textファイル以外に、Word、Excel、PowerPoint、一太郎、OASYS、Lotus Word ProやPDFファイルまで検索対象にすることが出来ます。
2.メールシステムの添付ファイル読出
携帯電話用サーバ型
現在、携帯端末・携帯電話などでメールを送受信するユーザが増加しています。他の人から送られてきたメールにはMS-Wordの添付ファイルが含まれることがあります。携帯端末ではシンプルな表示機能だけですが、デ変研TFライブラリを組み込んだサーバで処理すると、添付ファイルを参照することが出来ます。
     
PPT   Excel   Word   PDF
携帯端末用クライアン
メモリ容量が比較的大きな携帯端末においては、クライアント側にデ変研TFライブラリを組み込むことにより、添付ファイルを読み出すことが出来る可能性があります。
速度評価
DocCat Ver4.0 速度評価結果
(1)対象ソフトウェア
 DocCat Ver3/FDFオプション for Linux
 DocCat Ver4/PDFオプション for Linux

(2)テスト動作環境
 OS : RedHat Linux 7.2
 CPU : Pentium4 1.6G
 メモリ : 256MB
【試験データ】 (単位:MB・KB)
項目 doc xls ppt pdf txt 合計
ファイル数 205 372 49 2573 2114 5313
元ファイル合計サイズ (MB) 17.3 39.5 19.9 859.6 125.0 1061.3
元ファイル平均サイズ(KB) 86.4 108.8 415.4 342.1 60.6  
【DocCat Ver.3】 (単位:秒)
項目 doc xls ppt pdf txt 合計
合計処理時間 (秒) 20.8 37.6 5.3 686.3 265.1 1051.2
1ファイルあたりの処理時間 (秒) 0.10 0.10 0.11 0.27 0.13 0.70
【DocCat Ver.4】 (単位:秒)
項目 doc xls ppt pdf txt 合計
合計処理時間 (秒) 6.0 5.3 0.7 51.5 73.9 437.34
1ファイルあたりの処理時間 (秒) 0.03 0.01 0.01 0.14 0.03 0.23
■試験結果総括
上記、試験データの通、ファイル総数:5313ファイル合計約1GB相当のファイルに対しいて『DocCat』による【Ver3】と【Ver4】の速度評価を実施した結果、抽出処理時間は『DocCat Ver3』の約17分(1015.2秒) に対して『DocCat Ver4』では約7分(437.34秒)という結果となる。従来比較の約2倍以上の高速化を 実現。
[ 優位性・特徴・動作環境 ] [ 制限事項 ] [ 主な利用方法・速度評価 ] 
[ 価格表・年間保守費 ] [ アカデミック価格での購入条件 ] [ 年間保守について ] [ 代理店情報 ]
[ ページトップ ]

株式会社 データ変換研究所
〒604-8155 京都市中京区錦小路通室町東入占出山町308 ヤマチュウビル1F
TEL075-254-8780 FAX075-254-8790  050-3540-2795(IP電話番号)

データ変換研究所
『記載されている各社の会社名・製品名は各社の登録商標または商標です』 ©Dehenken Limited 2006-2008. All Rights Reserved.