データ変換研究所
 
 
 
サイト内検索
データ変換研究所 全文検索
デ変研 全文検索 Office Cyclope デ変研 全文検索 Mail Cyclope デ変研 全文検索 デ変研AKエンジン
アプリケーション組込型 電子メールの高速全文検索エンジン Mail Cyclope
大量に蓄積保存された電子メールの中から監査したいキーワードを含む特定のメールを高速に全文検索することのできるアプリケーション組込型検索エンジンです。
高度なテキスト処理技術により大事なメールを見逃さない
Mail Cyclopeは全文検索にN-gram(2gram+4gram)を採用し『日本語ABcd→日本/本語/語AB/ABcd/Bcd/cd/d』のように区切りインデックスを作成するので、ファイルサーバに貯まった大量の電子メールの内容を漏らすことなくインデックス作成します。また、作成されたインデックスを最後まで検索(mc_Search)対象とするので、最後の1通までメールを見逃すことが有りません。
■文字ゆらぎの設定
アルファベットの大小文字の同一視や全半角文字の同一視などの設定が可能です。これにより、「ABC」「abc」をふくむメールも漏らさず検索できます。
■検索条件の設定
and,or,not,( )や日付指定、件数指定、場所指定などの検索条件が設定出来、お客様のニーズに合った検索条件を設定して頂けます。
Mail Cyclopeのイメージ
メールをヘッダ・本文・添付ファイル(Word, Excelなど)に分割し、ヘッダ・本文はデ変研TFライブラリを使う事によりテキストに変換。添付ファイルの圧縮(ZIP/LHA)されたものにはデ変研MXライブラリで解凍後デ変研TFライブラリによりテキストに変換します。
このような処理を行い、指定したキーワードを含むメール、指定した種類のファイルが添付されているメールを監査対象と出来るようにいたします。
Mail Cyclopeのイメージ
Mail Cyclopeで使われているライブラリは全て自社開発
■ Mail Cyclopeの構成
MFXライブラリ・・・・メールの解析/圧縮展開
TFライブラリ・・・・・コード変換/テキスト抽出
Cyclopeライブラリ・・・全文検索
弊社ではこの3つのライブラリをすべて自社で開発しており、万が一のトラブルにも迅速な調査対応が可能です
プロセス監視処理による安定性
インデックス生成時などに万が一、プログラムが segmentation faultやタイムアウト等により異常終了
した場合でも、原因となったファイルをスキップしインデックスの再生性を自動的に行います。
また、インデックスが生成できなかったファイルの一覧も生成しますので、原因追及にも迅速に対応出来ます。
クラスタリングメールサイクロープで高速分散処理
  クラスタリング機能により、大量のメールでも、インデックスを作るサーバを分割させる事で検索しヒットするまでの時間を大幅に短縮することが可能です。
■検索時間の測定のために4台の玄箱を用意して測定。
機種 KURO・BOX/HG
CPU PowerPC 266MHz
メモリ 128MB
HDD WD2500JB(250GB)
OS Debian 3.0 for PowerPC
うち1台はリクエストサーバーと検索サーバーを兼用し、残り3台は検索サーバ専用としました。
■次のように100個のインデックスファイルを用意しました。
収納メール数 4200通/1インデックスファイル
収納メールサイズ平均 256KB/1メール
収納メールサイズ合計 928MB/1インデックスファイル
検索インデックスファイルサイズ 212MB/1インデックスファイル
■合計100件のヒットする検索を行った場合 
クラスタリングメールサイクロープのイメージ
豊富なOEM採用実績
アプリケーション組込型エンジンとして、電子メールフィルタリングソフト、本文添付・ファイルの全文検索機能、通信パケット記録装置のフォレンジックシステムなど多くの採用実績がございます。
多種多様な添付文書ファイルからも検索
メールの Subject / From / To などのヘッダーや本文からの検索はもちろん、デ変研MFXライブラリによりメールに添付されたファイルや圧縮されたファイルも解凍し解析する事が出来ます。これにより添付されたファイルも検索対象となります。
添付ファイルのエンコード
uuencode(MIME形式 / 本文埋込形式)/ base64 / binhex/ 7bit binary / 8bit binary / quoted-printable
■添付ファイルの圧縮フォーマット
tar / gzip / tgz /tar.gz / zip(winzip / pkzip 自動解凍形式・パスワード付きは除く) lha( lh1 / lh5 / lh6 / lh7 / 自動解凍形式は除く) rar / bzip2 は近日対応予定
【デ変研TFライブラリ対象ファイル】
Microsoft Office 
  <<Windows版>>
Word 95 / 97 / 98 / 2000 / 2002(XP) / 2003 / 2007
Excel 95 / 97 / 2000 / 2002(XP) / 2003 / 2007
PowerPoint 95 / 97 / 2000 / 2002(XP) / 2003 / 2007
<< Macintosh版 >>
Word 98 / 2001 / 2004 / 2008 for Mac
Excel 98 / 2001 / 2004 / 2008 for Mac
PowerPoint 98 / 2001 / 2004 / 2008 for Mac
一太郎 Ver.5 - Ver.13 / 2004 - 2010
富士通OASYS OASYS V6 / V7 / V8 / 2002
Lotus Word  Lotus Word Pro2001
Lotus 1-2-3 Lotus 1-2-3
Acrobat 4.0 / 5.0 / 6.0 / 7.0 / 8.0   pdf 1.2 / 1.3 / 1.4 / 1.5 / 1.6 / 1.7  * PDF 1.0 / 1.1 は変換対象外です。
XPS  
リッチテキスト RTF
テキスト文書 JIS / EUC / SJIS / UCS-2 / UTF-8 / UTF-16
書式付きテキスト HTML / XML / SGML
カタログをダウンロード
[ ページトップ ]

株式会社 データ変換研究所
〒604-8155 京都市中京区錦小路通室町東入占出山町308 ヤマチュウビル1F
TEL075-254-8780 FAX075-254-8790  050-3540-2795(IP電話番号)

データ変換研究所
『記載されている各社の会社名・製品名は各社の登録商標または商標です』 ©Dehenken Limited 2006-2010. All Rights Reserved.