データ変換研究所
 
 
 
サイト内検索
データ変換研究所 テキスト抽出
デ変研 テキスト抽出 DocCat デ変研 テキスト抽出 DocCatPDFオプション デ変研 テキスト抽出 デ変研MFXライブラリ デ変研 テキスト抽出 デ変研TFライブラリ
デ変研 TFライブラリ
[ 優位性・特徴・動作環境 ] [ 仕様及び制限事項 ] [ API一覧・テキスト抽出速度評価結果 ] 
[ 価格表・年間保守費 ] [ 年間保守について ] [ JIS X0213:2004及びWindows-31J対応について ]

Shift_JISコードにおけるShift_JIS-2004とWindows-31Jの相違点
1)JIS第3,4水準漢字とNEC選定IBM拡張文字及びIBM拡張文字における相違点
2)空き領域における相違点
3)Unicode相互変換における相違

JIS 第3,4水準漢字とNEC選定IBM拡張文字及びIBM拡張文字における相違点
JIS X0208-1990の空き領域に追加されたJIS第3水準漢字(1面14区〜1面15区,1面47区52点〜1面47区94点および1面84区7点〜1面94区94点)、JIS第4水準漢字(2面1区,2面3区〜2面5区,2面8区,2面12区〜2面15区,および2面78区〜2面94区)の割り当て領域は、Windows-31Jにて追加されたNEC選定IBM拡張文字(89区から92区)、IBM拡張文字(115区〜119区)と一部同じ領域を使用しています。
Shift_JIS-2004とWindows-31Jの文字コード範囲に直すと0xED40〜0xEEFCと0xFA40〜0xFC4Bまでの領域が同じとなります。
ただ、文字コードが同じ領域に割り当てられていても文字コードとグリフとUnicode変換先の対応関係が同じであれば、問題はありません。
しかし、この領域では文字コードとグリフの関係が全く異なるものが763文字存在します。
(当然、グリフを基準とするUnicode変換先も異なります)

空き領域における相違点性
JIS X0208の空き領域にWindows-31JやJIS X0213:2004にてグリフが追加された領域があります。
Windows-31JのNEC特殊文字(13区に83文字)とJIS X0213:2004の2区〜8区の空き領域(計227文字)、9区〜12区(計376文字)、13区(94文字)の部分です。この内、同じ13区に追加された文字にてWindows-31Jでは10文字、JIS X0213:2004では21文字が異なります。
Unicode相互変換における相違点
Shift_JIS-2004やWindows-31Jでは同じ文字コードが割り当たっており、グリフもよく似たような形状をしていますがUnicodeへの変換先が異なるものが9文字存在します。
JSI X0213:2004及びWindows-31J対応について
デ変研ライブラリではJIS X0213:2004及びWindows-31Jの両方に対応をしています。
上記で述べた相違点をうけ、どのような方法で実装しているのかをご説明します。

デ変研内部UCS2(DUCS)の導入
デ変研のライブラリ内での文字コード変換テーブルの基礎はShift_JIS⇔Unicodeを使用しています。しかし、JIS X0213:2004符号化表現であるShift_JIS-2004の一部の文字にはUnicode変換した際に基本多言語面(BMP)以外に割り当てられる文字や合成文字(*4)となる文字が328文字存在します。そこで、デ変研ライブラリではそれらの文字をUnicodeの私用領域(外字領域)U+E000〜U+F8FFのうちU+F1A0〜U+F2E7までに割り当てることにより、内部の文字コード変換テーブルをできる限り小さくしています。それ以外の文字については UTF-16にて表現しており、あわせてDUCS(デ変研内部UCS2)と規定しています。ただし、私用領域に割り当てを行っているため、他で同じ私用領域を使用されていた場合、誤変換が発生するといった問題はあります。例えば駆の旧字体『駈』をUnicodeのU+F1B9にユーザが割り当てたとして、入力にU+F1B9が入ってきた場合変換文字は『丈`』となってしまいます。
尚、DUCSにて特別に割り当てられる文字と割り当て位 置については別途DUCSの一覧表を資料として準備しています。(*5)

*4 複数の文字から1つの文字を合成する仕組み *5 補足資料が必要でしたらお問い合わせください
*6 ひらがな「か」に半濁点 *7 漢字の「丈」の右肩に 点

JIS X0213:2004とWindows-31Jの相違点の吸収
JIS X0213:2004とWindows-31Jではいくつもの文字においてコード変換 における相違点が存在します。
デ変研ライブラリでは、JIS X0213:2004符号化表現 Shift_JIS-2004⇔DUCSのテーブルをベースに持ちスイッチにより内部の変換テーブルを Windows-31J⇔DUCSのテーブルへと相違点部分の書き換えをしています。
これにより少な いテーブル量で、JIS X0213:2004とWindows-31Jへの対応を実装していますがJIS X0213:2004もしくはWindows-31Jのどちらかしか一度に使えないという面も持っています。


※参考文献: JISハンドブック ・ Wikipedia 等
 
[優位性・特徴・動作環境 ] [ 仕様及び制限事項 ] [ API一覧・テキスト抽出速度評価結果 ] 
[ 価格表・年間保守費 ] [ 年間保守について ] [ JIS X0213:2004及びWindows-31J対応について ]
[ ページトップ ]

株式会社 データ変換研究所
〒604-8155 京都市中京区錦小路通室町東入占出山町308 ヤマチュウビル1F
TEL075-254-8780 FAX075-254-8790  050-3540-2795(IP電話番号)

データ変換研究所
『記載されている各社の会社名・製品名は各社の登録商標または商標です』 ©Dehenken Limited 2006-2008. All Rights Reserved.