データ変換研究所
 
 
 
サイト内検索
データ変換研究所 テキスト抽出
デ変研 テキスト抽出 DocCat デ変研 テキスト抽出 DocCatPDFオプション デ変研 テキスト抽出 デ変研MFXライブラリ デ変研 テキスト抽出 デ変研TFライブラリ
デ変研 TFライブラリ
高精度・超高速テキスト抽出ソフトウェア
Java・Wondows対応のライブラリプログラムも用意しております。
Java版はjarファイルでまとめて提供しております。
[ 優位性・特徴・動作環境 ] [ 仕様及び制限事項 ] [ API一覧・テキスト抽出速度評価結果 ] 
[ 価格表・年間保守費 ] [ 年間保守について ] [ JIS X0213:2004及びWindows-31J対応について ]
API一覧
変換の為の関数群
初期処理 int ret = Dhkdtf_init(char *init_file)
オープン処理 int fildes = Dhkdtf_open(char *filename, int flag)
ファイルタイプの検出処理 int type = Dhkdtf_detect_type(int fildes, int *count)
テキストの読込処理 int ret = Dhkktf_read_text(int files, int type, int count, unsigned char *bp)
クローズ処理 int ret = Dhkdtf_close(int fildes)
終了処理 int ret = Dhkdtf_end()
UCS-2(2バイトユニコード)で返された文字列を任意の文字列に変換する関数群
UCS2からEUCへの長さ int length = Dhkmcc_ucslen2euc(unsigned char *bd, int size)
UCS2からEUCに変換 Dhkmcc_ucs2euc(unsigned char *bp, int size, unsigned char *outp)
UCS2からJISへの長さ int length = Dhkmcc_ucslen2sjis(unsigned char *bp, int size)
UCS2からSJISに変換 Dhkmcc_ucs2sjis(unsigned char *bp, int size, unsigned char *outp)
API一覧 デ変研TFライブラリ for Java
変換のための関数群 ※「jp.co.dehenken.javacat.Dtf.Dhktf 」は、デ変研TFライブラリfor Javaのクラスパッケージ名です。
オープン処理 int fsize = jp.co.dehenken.javacat.Dtf.Dhktf.Dhktf_open(String filename)
ファイルタイプの検出処理 int type = jp.co.dehenken.javacat.Dtf.Dhktf.Dhktf_detect_type(int fsize)
テキストの読込処理 int ret =jp.co.dehenken.javacat.Dtf.Dhktf. Dhktf_read_text(intfsize, int type)
テキスト抽出速度評価結果
◎テスト動作環境
  ソフトウェア  OS Redhat9.0
  ハードウェア  Pentium4 2.4c  メモリー 512MB HDD 80GB

◎性能試験結果 (※当社「TFライブラリ」を用いての実測値です)
項目 doc xsl ppt pdf jtd lwp oa2 rtf txt
ファイル数 8,480 8,370 1,410 25,170 740 90 290 200 94,115
ファイル数合計 138,865
ファイルサイズ合計 7GB
テキスト抽出時間 66分
[ 優位性・特徴・動作環境 ] [ 仕様及び制限事項 ] [ API一覧・テキスト抽出速度評価結果 ] 
[ 価格表・年間保守費 ] [ 年間保守について ] [ JIS X0213:2004及びWindows-31J対応について ]
[ ページトップ ]

株式会社 データ変換研究所
〒604-8155 京都市中京区錦小路通室町東入占出山町308 ヤマチュウビル1F
TEL075-254-8780 FAX075-254-8790  050-3540-2795(IP電話番号)

データ変換研究所
『記載されている各社の会社名・製品名は各社の登録商標または商標です』 ©Dehenken Limited 2006-2008. All Rights Reserved.