| ■ |
使用方法が簡単
「DocCat」はUNIXで使用されるcatコマンドの使い方と、大変よく似ています。コマンドラインで動作し、簡単に利用することができます。 |
| ■ |
ユニコードを中心とした文字体系
マイクロソフトのWindowsに準拠したユニコード体系の文字コードを利用しているので、MS-Office、一太郎とのテキスト文字コードの親和性が高く他のアプリケーションで利用できます。 |
| ■ |
プロパティ情報も出力
MS-Office97以上のファイル、PDFファイルであれば、オプション指定によりファイルに記述されているプロパティ情報を出力することができます。 |
| ■ |
半角カタカナの揺らぎを吸収
半角カタカナ文字を全角カタカナに自動的に変換し出力することができます。 |
| ■ |
拡張子によらずファイルの内容を自動判別
ファイル情報の認識が困難なクライアントサーバモデルにも適しています。 |
| ■ |
HTML/XML形式出力
出力フォーマットをHTML、XMLにすることが出来ます。 |
| ■ |
対応文書
Microsoft Office<<Windows版>>
Word 95 / 97 / 98 / 2000 /2002(XP)/2003/2007
Excel 95 / 97 / 2000 / 2002(XP)/2003 /2007
PowerPoint 95 / 97 / 2000 / 2002(XP)/2003/2007
Microsoft Office<<Macintosh版>>
Word98/2001/2004/2008 for Mac
Excel98/2001/2004/2008 for Mac
PowerPoint98/2001/2004/2008 for Mac
※ Acrobat 4.0 / 5.0 / 6.0 / 7.0 / 8.0 (一部未対応の形式があります)
※PDF 1.2 / 1.3 / 1.4 / 1.5 / 1.6 / 1.7 (*) (PDF1.1 は変換対象外です)
XPS
一太郎Ver.5 - Ver.13 / 2004 - 2009
OASYS V6/V7/V8/2002
Lotus Word Lotus Word Pro 2001
テキスト文書 JIS/EUC/SJIS/UTF-8/UTF-16/RTF/HTML/XML/SGML
※PDFは別売の「DocCat PDF オプション」を利用すれば可 |
| ■ |
HTML/XML形式出力
出力フォーマットをHTML、XMLにすることが出来ます。 |
| ■ |
| PDFオプションについての制限事項 |
| Acrobat |
4.0/5.0/6.0/7.0/8.0 |
| PDFバージョン |
1.2/1.3/1.4/1.5/1.6/1.7 ※PDF1.1は対象外となります |
| 暗号化 |
PDF1.3の暗号化したPDFファイルはテキスト抽出可能です
※1.2/1.4は対象外です |
| 埋込型フォント |
埋込型フォント作成している場合、PDF内部では、文字コードが1から順に割り付けられています。
この場合DocCatPDFオプションでテキスト抽出を行いますと、 1から順の番号が出力されます。
※文字コードは意味の無いデータとなりますが、抽出を制御する事は出来ません。 |
| 注)1 一部埋め込みフォントでPDFからのテキストが抽出出来ない場合があります |
| 抽出できない場合とは、次のような場合を指します。 |
(1)埋め込みフォントのSubtypeがType0の指定で、identityがCFF(Compact
Font Format)の指定で、
CID Font Operator がAdobe-Identityの指定がされた場合はテキスト抽出不可です。 |
(2)埋め込みフォントのSubtypeがType0の指定で、identityがTrueTypeの指定で、
Cmapエンコーディングのテーブルが参照できない場合は テキスト抽出不可です。 |
|