| ■ |
使用方法が簡単
「DocCat」はUNIXで使用されるcatコマンドの使い方と、大変よく似ています。コマンドラインで動作し、簡単に利用することができます。 |
| ■ |
ユニコードを中心とした文字体系
マイクロソフトのWindowsに準拠したユニコード体系の文字コードを利用しているので、MS-Office、一太郎とのテキスト文字コードの親和性が高く他のアプリケーションで利用できます。 |
| ■ |
プロパティ情報も出力
MS-Office97以上のファイル、PDFファイルであれば、オプション指定によりファイルに記述されているプロパティ情報を出力することができます。ユーザ定義プロパティ情報も出力することができます。 |
| ■ |
半角カタカナの揺らぎを吸収
半角カタカナ文字を全角カタカナに自動的に変換し出力することができます。 |
| ■ |
拡張子によらずファイルの内容を自動判別
ファイル情報の認識が困難なクライアントサーバモデルにも適しています。 |
| ■ |
HTML/XML形式出力
出力フォーマットをHTML、XMLにすることが出来ます。 |
| ■ |
対応文書
Microsoft Word
Word 95 / 97 / 98 / 2000 / 2002(XP) / 2003 / 2007
Word 98 / 2001 / 2004 / 2008 for Mac
Microsoft Excel
Excel 95 / 97 / 2000 / 2002(XP) / 2003 / 2007
Excel 98 / 2001 / 2004 / 2008 for Mac
Microsoft PowerPoint
PowerPoint 95 / 97 / 2000 / 2002(XP )/ 2003 / 2007
PowerPoint 98 / 2001 / 2004 / 2008 for Mac
Microsoft Visio
Visio 2002(XP) / 2003 / 2007
ODF (OpenOffice.org等)
1.0 / 1.1 / 1.2 (ワープロ・表計算・プレゼンテーション)
一太郎
Ver.5 - Ver.13 / 2004 - 2010
※Acrobat
4.0 / 5.0 / 6.0 / 7.0 / 8.0
※PDF
1.2 / 1.3 / 1.4 / 1.5 / 1.6 / 1.7 (*)
* PDF 1.0 / 1.1 は変換対象外です。
XPS
リッチテキスト
RTF
テキスト文書
JIS / EUC / SJIS / UTF-8 / UTF-16
HTML
XML
SGML
※PDFは別売の「DocCat PDF オプション」を利用すれば可
※その他の対応文書
富士通OASYS
OASYS V6 / V7 / V8 / 2002
Lotus Word Pro
Lotus Word Pro2001
|
| ■ |
HTML/XML形式出力
出力フォーマットをHTML、XMLにすることが出来ます。 |
| ■ |
| PDFオプションについての制限事項 |
| Acrobat |
4.0/5.0/6.0/7.0/8.0 |
| PDFバージョン |
1.2/1.3/1.4/1.5/1.6/1.7 ※PDF1.0/1.1は対象外となります |
| 暗号化 |
オプションによりユーザーパスワードを指定することでテキスト抽出できます。 |
| 埋込型フォント |
埋込型フォント作成している場合、PDF内部では、文字コードが1から順に割り付けられています。
この場合DocCatPDFオプションでテキスト抽出を行いますと、 1から順の番号が出力されます。
※文字コードは意味の無いデータとなりますが、抽出を制御する事は出来ません。 |
| 注)1 一部埋め込みフォントでPDFからのテキストが抽出出来ない場合があります |
| 抽出できない場合とは、次のような場合を指します。 |
(1)埋め込みフォントのSubtypeがType0の指定で、identityがCFF(Compact
Font Format)の指定で、
CID Font Operator がAdobe-Identityの指定がされた場合はテキスト抽出不可です。 |
(2)埋め込みフォントのSubtypeがType0の指定で、identityがTrueTypeの指定で、
Cmapエンコーディングのテーブルが参照できない場合は テキスト抽出不可です。 |
|