 |
 |
ParaGREP (特許4152273号)
ParaGREPとはあらかじめ検出したいキーワードを登録しておき、対象文書の監査をさせることで、対象文書中に、検出したいキーワードが存在するかを高速に検出する高速パターンマッチライブラリ・プログラムです。
※本製品は、ライブラリ商品となり『デ変研PGライブラリ』という名称でご提供いたします。 |
|
 |
| ■ |
キーワード群の識別
ParaGREPには、検出したいキーワードを辞書としてあらかじめ登録をして大量の登録を行っても検出時間は高速のままであるという特徴を有しております。登録できるキーワード(辞書)は、複数のキーワードを1つの辞書として登録でき、複数の辞書によるキーワードの登録ができます。検出と同時に、見つかったキーワードはどの辞書により、検出したかを辞書番号によって確認することができるようにしております。たとえば、会社共通キーワード辞書、部門共通キーワード辞書、個人設定キーワード辞書のように分類をすることで、後処理の効率的な条件判定に利用することができるようになります。 |
| ■ |
精度/安定性
複数の辞書群をかかえてキーワードが含まれているかを判定できることは前述しましたが、複数の辞書群をバンクに分けることができます。このためバンクの0番を有効としているときにバンク1やバンク2の辞書は一切検出対象としないようにしております。たとえば、禁止キーワードや、警告キーワードのような分類をしたい場合に、禁止辞書のキーワードはバンク0に、警告キーワードはバンク1に設定することで、各キーワードだけを絞り込んで検出させることができます。 |
| ■ |
自動辞書の追加
パターンの検出をすることを繰り返しているときに、自動的にあらたなキーワードを辞書に追加登録したい場合には、辞書追加の機能により追加登録ができます。 |
| ■ |
検出と置き換え
検出されたキーワードを別のキーワードに置き換えたい場合について、置き換えのための置き換え元のキーワードと、置き換え後のキーワードを登録して、情報を取り出すことができるようにしております。 |
| ■ |
日本語マルチコード対応
SJIS / EUC / JIS / UCS2 / UTF8について自動判別して処理を行ないます。 |
| ■ |
ゆらぎの吸収
改行、スペース、タブを無視し半角英数字⇔全角英数字、大文字⇔小文字、半角カナ⇔全角カナの自動置換ができます。 |
|
 |
| ■ |
必要メモリ・ディスク空き容量
メモリ 256MB以上(推奨)
ディスク 1MB以上(ソフトウェアのみの場合) |
| ■ |
対応OS
Windows / Solaris / FreeBSD / RedHat Linux / Miracle Linux |
| ■ |
適応アプリケーション例
メール監査システム(送信禁止文字を含む文書の自動判定)
自動分類システム
放送禁止用語の自動検出と置き換え(掲示板、チャットの自動監査システム)
広告サイトの広告主指定キーワードの検出
無料メールの広告情報の切替支援 |
|
 |
| ■ |
情報漏洩対策ソリューション(電子メール高速フィルタリング技術)
学校・官公庁・企業などあらゆるところで、社員の個人情報(電話番号や住所など)を漏洩から守る必要に迫られてきております。
電子メールの表題や本文、添付文書に含まれる機密キーワードを高速検出し、社外への情報漏洩を防止します。
※セキュリティプロダクトなどを開発する会社への技術供与 |
| ■ |
広告事業を主体とした無料メールサービス会社への提案
無料メールに広告が自動添付されるようなビジネスモデルで運営されている企業様に、新しい提案ができます。メールの内容により広告主様が希望されるキーワードが含まれている場合に、その広告主様の広告を優先して提供するビジネスです。
内容から判断し広告主様の情報を提供することで、メールを受け取る読者の反応は格段に変わるものと考えられます。メールの高速チェックのためにParaGREPをご利用頂けます。
※広告事業型無料メールサービス会社への技術供与 |
| ■ |
放送禁止用語がでたら「ピー」に置き換えるしくみに
Web上のチャット・掲示板で、もしも放送禁止用語を書き込まれたら、管理者がそれを目撃して、削除する方法しかありませんでした。この技術を利用して、放送禁止用語にマッチするキーワードが出たら、即座に「ピー」や「○○○」に置き換えることで、掲示板で不適切な用語が掲示されることを防止することができます。
学校・官公庁・企業などあらゆるところで掲示板に対する防御をすることができます。
※掲示板を運営する会社への技術供与 |
|
 |
| ■ |
ParaGREPとgrepの速度評価
ParaGREPの実行速度を測定し、その結果とgrepコマンドでの実行の速度結果を
比較することで、ParaGREPの処理の高速性についての結果を報告します。
[テスト環境]
今回、データを測定したサーバのマシンスペックは次の通りである。
CPU : Pentium�U 300MHz
MEM: SDRAM 512MB
HD : Urtra-ATA/33
OS : Redhat 8.0 (Kernel:2.4.18)
ParaGREPは、開発途上のプロトタイプ版である。
[テストデータ]
ParaGREP
[辞書]
ParaGREP辞書 30キーワードは、2〜4文字までの日本語文字列を30語用意した。
1つに「情報」というキーワードがある(辞書a)。
10000キーワードは、1〜10文字までのキーワード情報を10000語用意した。
語はすべて同じものはないようにした。
1つに「情報」というキーワードがある。(辞書b)
[ターゲット文書]
ターゲット文書は、テキスト文書であるが、内容は次のようにした。
先頭が「情報」があり、その後は「あ」が63文字と改行が1文字の構成で78回繰り返され、最後は「あ」が47文字と改行が1文字で構成されるファイルである。
全文字数は10001文字である。(ターゲット)
grep
[30キーワードのパターン検索]
辞書aの30語キーワードを順にターゲットに対してgrepをシェルスクリプト化した。
% grep (辞書aの1つ) (ターゲット) の連続
[10000キーワードのパターン検索]
辞書bの10000語のキーワードを順にターゲットに対してgrepをシェルスクリプト化した。
% grep (辞書bの1つ) (ターゲット) の連続
[テスト結果]
| |
辞書a |
辞書b |
| ParaGREP |
0.106 |
0.112 |
| grep |
0.085 |
30.575 |
|
| ■ |
考察
ParaGREPでは、30から10000語にデータが500倍増加しても時間は微増であったが、grepにおいては、500倍データが増加すると、時間も約360倍増加する結果が得られた。
これは、ParaGREPによるパターン検出の手法が従来手法に比べて明らかに優れていることを示すものと考えられる。 |
|
 |
価格は弊社までメールもしくはお電話でお問い合せ下さい。
E-mail 
電話 03-5475-6273(営業部 久保)(AM9:00〜PM6:00) |
 |
| [ ページトップ ] |