本文へ
文字サイズ:小文字サイズ:標準文字サイズ:大
  • English Top

Webサイトの色や形などの外形的特徴のみを用いて有害サイトを高速かつ高精度に検出する技術を開発

  • 印刷
2010年9月13日

株式会社KDDI研究所(本社:埼玉県ふじみ野市、代表取締役所長:秋葉 重幸)は、独立行政法人情報通信研究機構(本部:東京都小金井市、理事長:宮原 秀夫)からの委託研究である「インターネット上の違法・有害情報検出技術の研究開発」の成果の一部として、Webサイトの背景色やリンク先、ブラウザに特定の動作をさせるスクリプトなど、有害サイトに特有な外形的特徴を捉えることで有害サイトを高速かつ高精度に検出する技術を開発しました。本技術の利用により、90%以上の高い精度で有害サイト検出が可能となり、処理速度も従来の文書解析によるフィルタリングシステムと比べて3倍以上高速になります。

背景

近年、インターネットの普及により、一般ユーザ向けのWebサイトは増加する一方で、出会い系サイトや犯罪予告サイトなど有害なWebサイトも増加する傾向にあり、有害なWebサイトを自動的に検出するためのフィルタリングシステムに注目が集まっています。

現在主流のフィルタリングシステムのBlack / Whiteリスト方式では、URLリストのデータベースを管理するためのコストが大きくなる点や有害Webサイトと無害Webサイトの双方が同じURLドメインに存在する場合があるため判定精度が低下する点が課題であり、また、Webサイトに記載された単語から有害Webサイトを検出する文書解析方式や画像の特徴を解析することで有害な画像を検出する画像解析方式も開発されていますが、高精度な検出にするために多くの処理時間を要するという課題があります。 

今回の成果

この度、こうした課題を解決するために、外形的特徴から有害サイトを検出する技術を開発しました。

この技術は、背景色、リンク先やブラウザに特定の動作をさせるスクリプトなどのWebサイトのHTMLを解析することで、有害サイトに特有な外形的特徴を自動的に学習し、検出することが可能となります。

本技術の特長は、従来の文書解析方式では10,000個の特徴が必要だったのに対し、今回開発した外形的特徴に基づく方式ではわずか26個の特徴を用いるだけで90.3%※という高い精度で有害サイトを検出することが可能となりました。また、処理速度も従来の文書解析方式と比較して、3倍以上の高速処理を実現しています。

これにより、従来の方式と比べて誤検出が少なく、短時間で有害Web検出フィルタリングが可能となるため、フィルタリングシステムが導入されたブラウザなどを快適に利用することができるようになります。
(※ 1万の有害サイトと1万の無害サイトの合計2万サイトという環境下で、本技術を使用して有害サイトを検出した結果、90.3%という精度で検出)

今後の展望

今後は本技術を活用したフィルタリングシステムをPCなどのブラウザや、ISP(インターネット接続事業者)のフィルタリングサービス、監視事業者におけるWebサイトの監視業務などへ導入するため、技術開発を進めて行くとともに早期の実用化を目指します。

補足資料

各方式の特性

方式 検出方法 特徴
URL 
(Black/Whiteリスト)
WebサイトのURLを
データベースと照合
URL一致による判定のため、処理速度が高速。同一ドメイン下に有害・無害なWebサイトが混在する場合に精度が低下。URLを定常的に管理する必要があるため運用コストが大きい。
文書解析 Webサイトに記載の
文書に含まれる単語
を解析
高精度な判定を行うためには多くの単語を組み合わせて判定を行う必要があるため、処理速度が低下。
画像解析 Webサイトに掲載さ
れている画像を解析
高精度な判定を行うためには画像の多くの特徴を組み合わせて判定を行う必要があるため、処理速度が低下。
外形的特徴 
(今回の開発技術)
Webサイトを構成す
るHTMLタグ内の記
述を解析
有害Webサイトの外形的な特徴は類似性が高いため、少数の特徴のみを用いて高速・高精度な判定が可能。

今回の開発儀湯つの動作の仕組み
<本件に関する 問い合わせ先>
株式会社KDDI研究所営業企画グループ 担当 前川

TEL: 049-278-7545
E-mail:

<広報 問い合わせ先>
株式会社KDDI研究所営業企画グループ 担当 前川

TEL: 049-278-7545
E-mail:

独立行政法人 情報通信研究機構総合企画部 広報室
報道担当 廣田 幸子

Tel:042-327-6923
E-mail: