本文へ
文字サイズ:小文字サイズ:標準文字サイズ:大
  • English Top

大規模Web情報分析システム「WISDOM X(ウィズダム エックス)」をWeb上に試験公開

  • 印刷
2015年3月31日

独立行政法人 情報通信研究機構

ポイント

    • 10億件以上のWebページの情報を用いて、自然な質問文に回答する情報分析システムを公開
    • 「なに?」「なぜ?」「どうなる?」などの質問の種類に適した回答、更に意外な回答も発見
    • 利用者に質問を提案するなど、新しいWeb検索の概念により、“気づき”を利用者に提供

WISDOM X

NICTは、ユニバーサルコミュニケーション研究所において開発を行っている大規模Web情報分析システム「WISDOM X」を、3月31日(火)からWeb上に試験公開します。
WISDOM Xは、従来型の検索エンジンとは異なり、「東京オリンピックで何を心配すべきか?」「キーマカレーに何を入れる?」「地球温暖化が進むとどうなる?」「なぜ日本はデフレに陥ったのか?」といった自然な質問文を受け付け、10億件以上のWebページの情報に基づき、多種多様な回答と、回答が抽出されたWebページへのリンクを返します。例えば、「ビッグデータで何を作るか?」といった質問では、数百件の回答を表示し、その中には、「人工知能」「交通情報サービス」といった比較的知られているものから、「人気アニメ」「観光資源」「産業地図」「第4の科学」といった一部の専門家以外には意外なものまでも含まれます。
本システム開発の最終目的は、こうした“気づき”を利用者に与え、日常生活からビジネスまでの広範囲にわたるイノベーションを促すことです。また、従来、このような質問応答システムは、適切な質問を考える負担が大きいため、一般社会には普及してきませんでした。しかし、本システムでは「スマホ」のように単語だけを入力すると、「スマホで〇〇を解決する」「スマホは何が懸念される」「スマホが普及するとどうなる?」など、システムがその単語に関する質問を提案することができ、キーワードの入力とマウスクリックだけで、様々な“気づき”にたどり着けるように作られています。本システムが分析できるWebページは、現在10億ページを超えており、今後40億ページまで増加させる予定です。WISDOM Xは、http://wisdom-nict.jp/でご利用いただけます。

背景
WISDOM Xの表示例
WISDOM Xの表示例 [画像クリックで拡大表示]

近年、大量かつ有用な情報がWebに蓄積されていく一方で、有用な情報の発見は、しばしば非常に困難になっています。例えば、「地球温暖化」は多岐にわたる影響があると言われていますが、既存の検索エンジンでそれらの影響をリストアップすることは困難です。これは、そうした検索エンジンで欲しい情報を特定するには提示されたWebページを読む必要があり、「地球温暖化の影響」「ビッグデータの応用」など、前もって答えの数や多様性が分からない疑問に答えるには莫大な量のWebページを読む必要があるからです。NICTでは、そうした多様な答えを持つ疑問に対して、大量のWebページから端的な回答のリストを抽出するシステムを研究開発してきました。これは、そうした多様な答えを持つ疑問に対する答えこそが、近年重要性を増しているイノベーションやリスク管理といった、不確実性に対処しなければならない作業において重要なヒントになると考えられるからです。

今回の成果

このたび、NICTは、自然な質問文を入力すると、10億件以上のWebページの情報を基にして回答のリストを返すシステム「WISDOM X」をWeb上に試験公開します。このシステムは、利用者が「何で少子化問題を解決するか?」「なぜ日本はデフレに陥ったのか?」「円安が進むとどうなる?」などの質問を入力すると、異なる表現間の意味の同一性等を考慮して、柔軟に回答を抽出します。質問が思い付かない場合には、単語を入力すると、回答可能な質問を提案します。例えば、「地球温暖化」と入力すると、「地球温暖化が進むとどうなる?」などの質問を提案します。(補足資料参照

今後の展望

今後は、より複雑な質問により精度よく答えられるよう、研究開発を進めていきます。さらに、現在は日本語のWebページのみを分析していますが、科学技術論文や英語を含む他の言語への対応を進めていく予定です。



補足資料

WISDOM Xの概要

WISDOM Xは、利用者が自然な質問文を入力すると、10億件以上のWebページの情報を基にして回答を返すシステムです。「なに?」「なぜ?」「どうなる?」といったタイプの質問に回答のリストを返します。また、以下で詳しく説明しますが、従来のキーワードによる検索エンジンと異なり、質問の種類に適した形式で結果を返します。質問が「なに?」という形であれば単語のリストを返し、「なぜ?」という形であれば文章から重要な単語のみを選択して表示するスニペット形式のリストで返します。質問が「どうなる?」という形であれば、原因となる事象とその帰結の対応関係(「円安が進む」⇒「長期金利が上昇する」「輸出が増える」等)をグラフィカルに表示します。また、質問が思い付かない場合には、単語を入力すると、その単語に関連する質問をシステムが提案します。なお、著作権上の理由から、回答の一部しか表示されないことがありますが、回答と共に表示されているURLや、回答をクリックするとそこに現れるURLをクリックすることで、回答が抽出されたページや元のテキストを確認できます。
以下で、質問の種類(「なに?」「どうなる?」「なぜ?」)ごとの回答表示と、質問の提案について、例を示しながら説明します。

「なに?」質問

図 1: WISDOM X の回答表示例(「なに?」質問)
図 1: WISDOM X の回答表示例(「なに?」質問) [画像クリックで拡大表示]

図1は、「東京オリンピックで何を心配すべきか?」という質問に対するWISDOM Xの回答表示を示しています。この質問をWISDOM Xは「なに?」を問う質問として認識し、Web上のテキストから回答となる単語を抽出し、テキスト中でその単語の周辺にある文字列と一緒に表示します。
図1に示すように、「東京オリンピックで何を心配すべきか?」という質問に対して、土地の架空取引による詐欺が既に発生していること、関西からの人材流出が懸念されているなど、多くの人にとっては意外であり、また、多様な人々の「今そこにある」憂慮を示す回答が提示されています。実際に、企業等による世論調査等でカバーされていないような回答も多数、見つけることができます。現状、新聞や既存の検索エンジン等を利用しても、これだけの懸念点のリストを収集するにはそれなりの情報リテラシと時間が必要になると思われますが、WISDOM Xは、芸能情報からグルメ情報、テクノロジー情報、社会問題、環境問題、政治・歴史に至るまで、分野に限らず多様な質問に対し、そうした回答のリストを提示できます。
このように、WISDOM Xが多数の回答を端的に提示できるのは、従来のキーワードによる検索エンジンとは異なり、様々な表現の違いを考慮して、回答候補を抽出していることによります。「東京オリンピックで何を心配すべきか?」という質問では、「~が心配」という表現だけでなく、「~が懸念される」「~が危ぶまれる」のように表記上は異なるものの、意味がほぼ同一の表現も手がかりとすることで、回答候補を幅広く抽出します。

「どうなる?」質問

図 2: WISDOM X の回答表示例(「どうなる?」質問)
図 2: WISDOM X の回答表示例(「どうなる?」質問) [画像クリックで拡大表示]

「どうなる?」を問う質問の例として、図2に「人工知能が進化するとどうなる?」という質問の回答表示を示します。「どうなる?」を問う質問では、WISDOM Xは、原因となる事象(「人工知能が進化する」)と起こり得る帰結(「人工知能が話し相手となるため、結婚しない人が増える」等)の対応関係をWeb上の文から抽出し、グラフィカルに表示します。
このような表示によって、「人工知能がいずれ自我を持つ」「人間性のある各種ロボットや人間と人工知能が合体したサイボーグ等が出現する」といった比較的遠い人工知能の将来像から、「人工知能がコールセンターや自動運転等で実用化される」「人工知能が大学入試を解く」「観光コースを自動生成する」「人工知能が発明をする」といった近未来像まで、様々な人々がWeb上で書いた将来予想を把握できます。
起こり得る帰結をクリックすると、更に質問が提案され、質問をクリックするだけで「風が吹けば桶屋が儲かる」式に更なる帰結を出力したり(「人工知能が進化するとどうなる?」⇒「話し相手に困らなくなって結婚しない人が増えるとどうなる?」⇒「少子化が進む」)、原因と帰結の結び付きの理由を質問できます(「地球温暖化が進むとどうなる?」⇒「地球温暖化が進むとプランクトンが減るのはなぜ?」⇒「海がCO2を吸収することで酸性化が進み…」)。
また、「風が吹けば桶屋が儲かる」式に原因と帰結のつながりの連鎖を探していくと、回答の抽出元のWebページにはそもそも書かれていなかった仮説的なストーリー、シナリオも見つけることができます。例えば、NICTでは、そうした仮説的シナリオとして、「地球温暖化が進む⇒海水温が上昇する⇒腸炎ビブリオが増殖する⇒食中毒が増える」というものを2007年に収集した6億件のWebページから見つけましたが、これは、それらの6億件のWebページのいずれにも、まとまったシナリオとして書かれていることはありませんでした。その後、このシナリオは、専門誌において事実として観測されていることが報告されました(注1)。このように、将来に対する仮説的シナリオには、その後事実となるものも含まれていると思われ、様々な状況で発想支援に利用可能です。

「なぜ?」質問

図 3: WISDOM X の回答表示例(「なぜ?」質問)
図 3: WISDOM X の回答表示例(「なぜ?」質問) [画像クリックで拡大表示]

「なぜ?」を問う質問の例として、図3に「地球温暖化で逆に日本の冬が寒くなるのはなぜ?」という質問の回答表示を示します。「なぜ?」を問う質問では、WISDOM Xは、Web上のテキストで回答となる可能性の高い文章を特定し、文章から重要な単語のみを選択して表示するスニペット形式表示します。「地球温暖化で逆に日本の冬が寒くなるのはなぜ?」という質問への回答が抽出されたオリジナルのページを見ると、「地球温暖化で北極の氷が溶け、ジェット気流が弱まったことが日本の厳寒の原因である」などの説明が確認できます。
質問の提案

図4: WISDOM Xによる質問の提案
図4: WISDOM Xによる質問の提案 [画像クリックで拡大表示]

質問を思い付かないときには、単語を入力すると、システムが提案する質問を表示します(図4参照)。従来の質問応答システムがこれまで普及しなかった原因として、キーワード検索とは異なり、適切な質問を考える負担が一般ユーザには高かったことが挙げられます。そこで、WISDOM Xでは、この質問を提案する機能によって、キーワードの入力とクリックだけで、様々な“気づき”にたどり着けるようになっています。
図4に示すように、単語を入力し、提案された質問をクリックすると、その質問の回答が表示されます。例えば、
①「ビッグデータ」というキーワードをユーザが入力(ステップ1)。
②提示された質問の中から、ユーザが「ビッグデータで◯◯を創る?」という質問をクリック(ステップ2)。
③この質問に対して、「マーケティング支援サービス」「地域経済分析システム」「パンデミック予測プロジェクト」「映画」等の様々な回答が約500件、表示され、さらに、システムが提案した「なぜビッグデータで映画を創るか?」という質問をクリック(ステップ3)。
といったステップを経ると、最終的に、映画作成のためにビッグデータを利用する動機として、映画製作が巨額の投資であること、また、ビッグデータを利用する手段として、映画の主役、脇役、監督、予算、台本等から収益予測を立てるモデルが確立していることなどがわかります。例えば、「ビッグデータって、そもそも何?」という疑問を抱いた利用者でも、ビッグデータというキーワードの入力とマウスクリックだけで、こうした最先端の意外な情報に接することができます。こうした使い方は、既存の検索エンジンとは大きく異なるところです。

おことわり
WISDOM Xのデータは日々更新され、また、アルゴリズムにも適宜修正が入ります。また、システムの混み具合、負荷によっても出力が変わることがあります。従いまして、本プレスリリースでご紹介した様々な情報は、WISDOM Xで表示されなくなる可能性がありますことをご承知ください。

(注1)Craig Baker-Austin, Joaquin A. Trinanes, Nick G. H. Taylor, Rachel Hartnell, Anja Siitonen, and Jaime Martinez-Urtaza. 2013. Emerging vibrio risk at high latitudes in response to ocean warming. Nature Climate Change, 3:73-77.



本件に関する問い合わせ先

ユニバーサルコミュニケーション研究所
情報分析研究室

鳥澤 健太郎
Tel: 0774-98-6847
E-mail:

広報

広報部 報道担当

廣田 幸子
Tel: 042-327-6923
Fax: 042-327-7587
E-mail: