データ変換研究所
 
 
 
サイト内検索
データ変換研究所 テキスト抽出
デ変研 テキスト抽出 DocCat デ変研 テキスト抽出 DocCatPDFオプション デ変研 テキスト抽出 デ変研MFXライブラリ デ変研 テキスト抽出 デ変研TFライブラリ
DocCat DocCatPDFオプション
高精度・超高速テキスト抽出ソフトウェア 
MS-WordなどWindowsの文書ファイルから高精度かつ超高速にテキスト情報を抽出するSolaris/Linux/FreeBSD用のフィルタ・プログラムです。
実行形式のテキスト抽出ソフトウェアであり、NAMAZU(全文検索エンジン)と組み合わせてイントラネット上での全文検索システムを構築したり、携帯電話で添付ファイル付きメールを読み出すためのメールサーバーなどでご利用いただいております。
[ 優位性・特徴・動作環境 ] [ 制限事項 ] [ 主な利用方法・速度評価 ] 
[ 価格表・年間保守費 ] [ アカデミック価格での購入条件 ] [ 年間保守について ] [ 代理店情報 ]
制限事項
1.MS-Word
項目 仕様(データ変換研究所)
表は解除し、セルの内容をテキストとして抽出します
添付ファイル 変換可能です
文書の保護 「文書の保護」を設定したファイルは変換可能です
制限事項1 ワードアート文字は変換できません
制限事項2 表の形式は各セルの内容が改行で区切られます
制限事項3 パスワード保護ファイルは変換できません
2.PowerPoint
項目 仕様(データ変換研究所)
抽出概要 スライドとノートのテキスト抽出を行います
スライド番号 テキスト抽出しません
タグ出力 タグ出力しません
制限事項 添付されたWord/Excelファイルは抽出できません
3.Excel
項目 仕様(データ変換研究所)
抽出概要 文字列・数値のみ変換します
添付ファイル 変換可能です
CSV形式出力 CSV形式でテキストファイルに出力します
ブック保護 ブック保護を設定したファイルは変換できません
シート保護 シート保護を設定したファイルは変換可能です
ワークシート 区切り 改行コードを出力しません
制限事項1 付・計算式などの情報は変換しません
制限事項2 パスワード保護ファイルは変換できません
制限事項3 指定された頁番号、頁数、日付、時刻、ファイル名、シート名は ヘッダとフッダでは抽出しません
4.PDF
項目 仕様(データ変換研究所)
抽出概要 暗号化されていない文字情報をテキスト変換します。 ※PDF1.3の暗号化ファイルはテキスト変換可能です
Camp文字 抽出できない場合があります
symbol文字 文字化けする場合があります
制限事項1 「テキスト選択ツール」でコピーできない文字は抽出できません
制限事項2 LZW圧縮されたテキストの抽出はできません
制限事項3 埋め込みフォント利用の文字データでPDFファイル作成している場合、 PDF内部では文字コードが1から順に割り付けられている。この場合、テキスト抽出を行うと、 1から順の番号が出力される。文字コードの抽出を抑制することはできません
5.HTML
項目 仕様(データ変換研究所)
抽出概要 タグと属性以外の文字列を抽出します
6.XML
項目 仕様(データ変換研究所)
抽出概要 タグと属性以外の文字列を抽出します
[ 優位性・特徴・動作環境 ] [ 制限事項 ] [ 主な利用方法・速度評価 ] 
[ 価格表・年間保守費 ] [ アカデミック価格での購入条件 ] [ 年間保守について ] [ 代理店情報 ]
[ ページトップ ]

株式会社 データ変換研究所
〒604-8155 京都市中京区錦小路通室町東入占出山町308 ヤマチュウビル1F
TEL075-254-8780 FAX075-254-8790  050-3540-2795(IP電話番号)

データ変換研究所
『記載されている各社の会社名・製品名は各社の登録商標または商標です』 ©Dehenken Limited 2006-2008. All Rights Reserved.