データ変換研究所
 
 
 
サイト内検索
データ変換研究所 テキスト抽出
デ変研 テキスト抽出 DocCat デ変研 テキスト抽出 DocCatPDFオプション デ変研 テキスト抽出 デ変研MFXライブラリ デ変研 テキスト抽出 デ変研TFライブラリ
DocCat DocCatPDFオプション
高精度・超高速テキスト抽出ソフトウェア 
MS-WordなどWindowsの文書ファイルから高精度かつ超高速にテキスト情報を抽出するSolaris/Linux/FreeBSD用のフィルタ・プログラムです。
実行形式のテキスト抽出ソフトウェアであり、NAMAZU(全文検索エンジン)と組み合わせてイントラネット上での全文検索システムを構築したり、携帯電話で添付ファイル付きメールを読み出すためのメールサーバーなどでご利用いただいております。
[ 優位性・特徴・動作環境 ] [ 制限事項 ] [ 主な利用方法・速度評価 ] 
[ 価格表・年間保守費 ] [ アカデミック価格での購入条件 ] [ 年間保守について ] [ 代理店情報 ]
優位性
高速性
高精度で尚かつ圧倒的な高速性を発揮します。全文検索システムにとってテキスト抽出処理時間の高速性はインデクシング時間の短縮化に非常に重要な要素となります。『DocCat V6.0』では、V3.0で実現した以下の高速化をそのまま受け継いでいます。抽出処理プロセスの高速化などにより『従来比約2倍以上』となり更なる大幅な高速化を実現いたしました。これにより、大容量の文書データを運用する全文検索システムでのインデックス生成時間の大幅な短縮化や、データ更新頻度の向上など運用面での大幅な効率化が見込まれます。
精度/安定性
全文検索システムにとって非常に重要となる高度な検索精度を実現するには検索対象となる文書ファイルからのテキスト抽出精度が極めて重要となります。本来、ヒットすべき文書がヒットしないようでは、全文検索システム導入効果が意味のないものになってしまいます。当社「DocCat」及び「TFライブラリ」はファイルのサフィックス(.docとか)を一切参照せずファイルの中身で判定し、高精度なテキスト抽出処理をおこないます。
 
実行イメージ 実行イメージ
実行イメージ(% doccat ms-word.doc > textfile.euc)
特長
使用方法が簡単
「DocCat」はUNIXで使用されるcatコマンドの使い方と、大変よく似ています。コマンドラインで動作し、簡単に利用することができます。
ユニコードを中心とした文字体系
マイクロソフトのWindowsに準拠したユニコード体系の文字コードを利用しているので、MS-Office、一太郎とのテキスト文字コードの親和性が高く他のアプリケーションで利用できます。
プロパティ情報も出力
MS-Office97以上のファイル、PDFファイルであれば、オプション指定によりファイルに記述されているプロパティ情報を出力することができます。ユーザ定義プロパティ情報も出力することができます。
半角カタカナの揺らぎを吸収
半角カタカナ文字を全角カタカナに自動的に変換し出力することができます。
拡張子によらずファイルの内容を自動判別
ファイル情報の認識が困難なクライアントサーバモデルにも適しています。
HTML/XML形式出力
出力フォーマットをHTML、XMLにすることが出来ます。
対応文書
Microsoft Word
  Word 95 / 97 / 98 / 2000 / 2002(XP) / 2003 / 2007
  Word 98 / 2001 / 2004 / 2008 for Mac
Microsoft Excel
  Excel 95 / 97 / 2000 / 2002(XP) / 2003 / 2007
  Excel 98 / 2001 / 2004 / 2008 for Mac
Microsoft PowerPoint
  PowerPoint 95 / 97 / 2000 / 2002(XP )/ 2003 / 2007
  PowerPoint 98 / 2001 / 2004 / 2008 for Mac
Microsoft Visio
  Visio 2002(XP) / 2003 / 2007
ODF (OpenOffice.org等)
  1.0 / 1.1 / 1.2 (ワープロ・表計算・プレゼンテーション)
一太郎
  Ver.5 - Ver.13 / 2004 - 2010
※Acrobat
  4.0 / 5.0 / 6.0 / 7.0 / 8.0
※PDF
  1.2 / 1.3 / 1.4 / 1.5 / 1.6 / 1.7 (*)
  * PDF 1.0 / 1.1 は変換対象外です。
XPS

リッチテキスト
  RTF
テキスト文書
  JIS / EUC / SJIS / UTF-8 / UTF-16
  HTML
  XML
  SGML

※PDFは別売の「DocCat PDF オプション」を利用すれば可

※その他の対応文書
 富士通OASYS
      OASYS V6 / V7 / V8 / 2002
 Lotus Word Pro
   Lotus Word Pro2001
HTML/XML形式出力
出力フォーマットをHTML、XMLにすることが出来ます。
PDFオプションについての制限事項
Acrobat 4.0/5.0/6.0/7.0/8.0
PDFバージョン 1.2/1.3/1.4/1.5/1.6/1.7 ※PDF1.0/1.1は対象外となります
暗号化  オプションによりユーザーパスワードを指定することでテキスト抽出できます。
埋込型フォント 埋込型フォント作成している場合、PDF内部では、文字コードが1から順に割り付けられています。 この場合DocCatPDFオプションでテキスト抽出を行いますと、 1から順の番号が出力されます。
※文字コードは意味の無いデータとなりますが、抽出を制御する事は出来ません。
注)1 一部埋め込みフォントでPDFからのテキストが抽出出来ない場合があります
    抽出できない場合とは、次のような場合を指します。 
   (1)埋め込みフォントのSubtypeがType0の指定で、identityがCFF(Compact Font Format)の指定で、
     CID Font Operator がAdobe-Identityの指定がされた場合はテキスト抽出不可です。
   (2)埋め込みフォントのSubtypeがType0の指定で、identityがTrueTypeの指定で、
     Cmapエンコーディングのテーブルが参照できない場合は テキスト抽出不可です。
動作環境
必要メモリ・ディスク空き容量
メモリ       256MB以上(推奨)
ディスク      10MB以上(ソフトウェアのみの場合)
対応OS
 ・Linux系
    Red Hat 9 / EL3 / EL4 / EL5
    SUSE Linux Enterprise Server 10
 ・BSD系
    FreeBSD 4.0 以上
 ・Solaris
    Solaris 9 / 10
[ 優位性・特徴・動作環境 ] [ 制限事項 ] [ 主な利用方法・速度評価 ] 
[ 価格表・年間保守費 ] [ アカデミック価格での購入条件 ] [ 年間保守について ] [ 代理店情報 ]

株式会社 データ変換研究所
〒604-8155 京都市中京区錦小路通室町東入占出山町308 ヤマチュウビル1F
TEL075-254-8780 FAX075-254-8790  050-3540-2795(IP電話番号)

データ変換研究所
『記載されている各社の会社名・製品名は各社の登録商標または商標です』 ©Dehenken Limited 2006-2010. All Rights Reserved.