データ変換研究所
 
 
 
サイト内検索
データ変換研究所 テキスト抽出
デ変研 テキスト抽出 DocCat デ変研 テキスト抽出 DocCatPDFオプション デ変研 テキスト抽出 デ変研MFXライブラリ デ変研 テキスト抽出 デ変研TFライブラリ
デ変研 TFライブラリ
高精度・超高速テキスト抽出ソフトウェア
Linux、Solaris、FreeBSD、Windowsに対応しています。
Java版、JNI版、Ruby版があります。
[ 優位性・特徴・動作環境 ] [ 仕様及び制限事項 ] [ API一覧・テキスト抽出速度評価結果 ] 
[ 価格表・年間保守費 ] [ 年間保守について ] [ JIS X0213:2004及びWindows-31J対応について ]
優位性
高速性
圧倒的な高速性を発揮し、全文検索におけるインデキシング生成時間の大幅な短縮化を実現します。
精度/安定性
全文検索システムにとって非常に重要となる高度な検索精度を実現するには検索対象となる文書ファイルからのテキスト抽出精度が極めて重要となります。本来、ヒットすべき文書がヒットしないようでは、全文検索システム導入効果が意味のないものになってしまいます。当社「DocCat」及び「TFライブラリ」はファイルのサフィックス(.docなど)を一切参照せずファイルの中身で判定し、高精度なテキスト抽出処理をおこないます。
開発生産性
ライブラリには、ファイルフォーマットの自動検出プログラムの関数も用意しておりますので、ファイルの切り分けプログラムを作成する必要はありません。
サポート
文書ファイル新バージョンへの対応をスピーディーに行います。また、現行サポートしていないファイル形式についてはご要望に応じて対応いたします。機能面の追加についても必要性の度合いに応じて詳細をお聞きしたうえで柔軟に対応いたします。
特長
使用方法が簡単
DocCatコマンドと似たサンプルプログラムを用意しており、プログラム経験のある方には非常に容易にご理解いただけます。
ユニコードを中心とした文字体系
マイクロソフトのWindowsに準拠したユニコード体系の文字コードを利用しているので、MS-Office、一太郎とのテキスト文字コードの親和性が高く他のアプリケーションで利用できます。
プロパティ情報も出力
MS-Office97以上のファイル、PDFファイルであれば、オプション指定によりファイルに記述されているプロパティ情報を出力することができます。ユーザ定義プロパティ情報も出力することができます。
半角カタカナの揺らぎを吸収
半角カタカナ文字を全角カタカナに自動的に変換し出力することができます。
拡張子によらずファイルの内容を自動判別
ファイル情報の認識が困難なクライアントサーバモデルにも適しています。
HTML/XML形式出力
出力フォーマットをHTML、XMLにすることが出来ます。
マルチスレッド対応
CPU数に応じてテキスト抽出速度の情報が向上します。
動作環境
必要メモリ・ディスク空き容量
メモリ       256MB以上(推奨)
ディスク      10MB以上(ソフトウェアのみの場合)
対応文書
Microsoft Word
  Word 95 / 97 / 98 / 2000 / 2002(XP) / 2003 / 2007
  Word 98 / 2001 / 2004 / 2008 for Mac
Microsoft Excel
  Excel 95 / 97 / 2000 / 2002(XP) / 2003 / 2007
  Excel 98 / 2001 / 2004 / 2008 for Mac
Microsoft PowerPoint
  PowerPoint 95 / 97 / 2000 / 2002(XP )/ 2003 / 2007
  PowerPoint 98 / 2001 / 2004 / 2008 for Mac
Microsoft Visio
  Visio 2002(XP) / 2003 / 2007
ODF (OpenOffice.org等)
  1.0 / 1.1 / 1.2 (ワープロ・表計算・プレゼンテーション)
一太郎
  Ver.5 - Ver.13 / 2004 - 2010
Acrobat
  4.0 / 5.0 / 6.0 / 7.0 / 8.0
PDF
  1.2 / 1.3 / 1.4 / 1.5 / 1.6 / 1.7 (*)
  * PDF 1.0 / 1.1 は変換対象外です。
XPS
リッチテキスト
  RTF
テキスト文書
  JIS / EUC / SJIS / UTF-8 / UTF-16
  HTML
  XML
  SGML

※その他の対応文書
 富士通OASYS
      OASYS V6 / V7 / V8 / 2002
 Lotus Word Pro
   Lotus Word Pro2001
対応OS
Linux Red Hat 9 / EL3 / EL4 / EL5
    SUSE Linux Enterprise Server 10
Solaris 9 / 10
FreeBSD 4.0 以上
Windows NT / 2000 / XP / Vista / 7
Windows Server 2000 / 2003 / 2007 / 2008 / 2008R2
64bit対応実績OSや、Linuxのその他Distributionについてはお問い合わせ下さい。

PDFについての制限事項
暗号化       ユーザーパスワードを指定することでテキスト抽出できます。
          
埋込型フォント   注)1 一部埋め込みフォントでPDFからのテキストが抽出出来ない場合があります。
             抽出できない場合とは、次のような場合を指します。
             (1)埋め込みフォントのSubtypeがType0の指定で、identityが CFF(Compact Font Format)の指定で、
              CID Font Operator がAdobe-Identityの指定がされた場合はテキスト抽出不可です。
             (2)埋め込みフォントのSubtypeがType0の指定で、identityがTrueTypeの指定で、Cmapエンコーディング
              のテーブルが 参照できない場合は テキスト抽出不可です。

[ 優位性・特徴・動作環境 ] [ 仕様及び制限事項 ] [ API一覧・テキスト抽出速度評価結果 ] 
[ 価格表・年間保守費 ] [ 年間保守について ] [ JIS X0213:2004及びWindows-31J対応について ]
[ ページトップ ]

株式会社 データ変換研究所
〒604-8155 京都市中京区錦小路通室町東入占出山町308 ヤマチュウビル1F
TEL075-254-8780 FAX075-254-8790  050-3540-2795(IP電話番号)

データ変換研究所
『記載されている各社の会社名・製品名は各社の登録商標または商標です』 ©Dehenken Limited 2006-2010. All Rights Reserved.