映像を見て感じた内容を脳から言葉で読み解く脳情報デコーディング技術を開発

～名詞・動詞だけでなく“印象”を形容詞の形で解読に成功～

2017年11月1日

国立研究開発法人情報通信研究機構

ポイント

CMなどの映像を見て感じたことを、1万語の「名詞・動詞・形容詞」の形で脳活動から解読
より多種の物体・動作内容を読み解く技術に加え、新たに“印象”を読み出す技術を確立
テレビCMなどの映像コンテンツ評価や発話を介さないコミュニケーション技術への応用が可能

NICT脳情報通信融合研究センター（CiNet）のグループは、映像を見て感じた「物体・動作・印象」の内容を、脳活動を読み解くことで、1万語の「名詞・動詞・形容詞」の形で言語化する脳情報デコーディング技術の開発に成功しました。従来の脳情報デコーディング技術では約500単語に対応する物体や動作の内容を解読していたのに比べ、本技術の開発により、おおよそ20倍の1万単語に対応する内容を脳から解読することが可能となりました。さらに、従来技術では解読できなかった“印象”の内容についても、形容詞の形で解読に成功しました。

本技術を基盤技術とすることで、映像を見て感じたことを脳活動から読み取り評価する脳情報デコーディング技術に基づく映像コンテンツ評価手法や、発話や筆談が困難な方々などが頭の中で考えただけで内容を言語化してコミュニケーションを行う手段などの社会実装が期待されます。映像コンテンツ評価手法については、2016年度から開始したCMなどの映像コンテンツ評価サービス事業に本技術が利用されています。

なお、この成果は、神経科学の国際科学誌「NeuroImage 」オンライン版に掲載されました。

背景

画像や映像を見て感じたことを脳活動から読み取る脳情報デコーディング技術は、脳と機械のインタフェースなどの未来の情報通信技術の基盤技術として重要な役割を担う技術です。近年、その一つの実装の形として、感じたことを単語の形で言語化して脳活動から読み取る技術が開発されています。これまでには、映像を見て感じた物体と動作の内容を、約500語の単語の形で推定した例があります。しかし、500単語といえども、実世界において私たちが感じる多様な内容のごく一部を反映するに過ぎません。また、映像を見て感じる内容としても、物体と動作のほかにも印象のような異なる種類の内容も存在します。脳情報デコーディング技術を社会で実用化するためには、もっと多様な内容をもっと多くの単語に対応する形で脳活動から読み取ることが必要となります。

今回の成果

図1: 映像を見て感じた内容解読の一例
［画像クリックで拡大表示］

本研究において、CiNetの西田知史研究員と西本伸志主任研究員は、映像を見て感じる様々な「物体・動作・印象」の内容を、それらに対応する1万語の「名詞・動詞・形容詞」の形で推定する脳情報デコーディング技術を開発しました。

この技術の特徴は、大規模テキストデータから学習した言語特徴空間を、脳活動の解読装置であるデコーダーに取り入れて、映像を見て感じた内容の推定に利用した点です（詳細は補足資料1. 参照）。ここでの言語特徴空間とは、単語同士の意味的な近さ・遠さを空間内の位置関係により表現する100次元空間のことです。この空間内では、大規模テキストデータに含まれている1万語の「名詞・動詞・形容詞」がそれぞれ空間内の1点として表現されており、意味の近い単語（例: 猫と犬）は近い距離で表現され、意味の遠い単語（例: 猫と建物）は遠い距離で表現されます。この1万語の表現を持つ言語特徴空間を取り入れることによって、従来技術の約20倍となる1万単語を用いて、脳活動から映像を見て感じたことの解読が可能となりました。

さらに、従来技術では名詞・動詞に対応する物体・動作の内容のみを解読していましたが、言語特徴空間に含まれる形容詞を用いて、対応する“印象”内容も感じた内容として解読することに初めて成功しました。

本技術を使用し、映像を見て感じた内容の解読を行った一例を図1に示します。

本技術は、CMなどの自然な映像を視聴中の被験者から機能的磁気共鳴画像法（fMRI）により計測した脳活動を、解読の対象とします。脳活動の解読を行うデコーダーは、脳活動と言語特徴空間の対応関係を保持しており、新しい脳活動が入力されると、対応関係を利用して言語特徴空間内の1点を推定します。そして、脳活動から推定した点からの距離の近さに基づいて、1万単語それぞれのもっともらしさを出力します（詳細は補足資料2. 参照）。もっともらしい単語ほど、その被験者が映像を見て感じた内容に近いとみなします。図1右の単語リストが、図1左の映像を視聴中の脳活動から実際に推定した、もっともらしさの高い最上位単語を、名詞（物体）・動詞（動作）・形容詞（印象）に分けて出力した結果になります。

本技術は、自然な映像から感じた様々な物体・動作・印象の内容を、1万語の単語として解釈しやすい形で解読できることから、脳情報デコーディング技術の実社会における実用化を促進する技術だといえます。

今後の展望

今後は、映像から感じた内容の推定精度の向上を目指すとともに、推定された内容がどのように個性や購買行動と結び付くのかといった点についても検証を行う予定です。

また、発話や筆談が困難な方々などが利用可能な発話を介しない言語化コミュニケーション技術に対しても、さらに、その応用技術の幅広い社会実装を、産学官の連携で目指していきます。

なお、本技術は、NICTから株式会社NTTデータにライセンス提供され、「脳情報デコーディング技術に基づいたCMなどの映像コンテンツ評価サービス（NeM sweets DONUTs）」として、2016年度から株式会社NTTデータにより事業展開されています。

掲載論文

掲載誌：NeuroImage

DOI：10.1016/j.neuroimage.2017.08.017.

URL：http://www.sciencedirect.com/science/article/pii/S105381191730664X

掲載論文名：Decoding naturalistic experiences from human brain activity via distributed representations of words

著者名：Satoshi Nishida, Shinji Nishimoto

補足資料

今回開発した技術の概要

1．脳情報デコーダーの構築方法について

本技術は、fMRIにより計測した脳活動と1万単語の近さ・遠さを、言語特徴空間を介して推定することにより、映像を見て感じた内容を単語の形で解読します。本技術で用いるデコーダー構築の概要を図2に示します。

まず、被験者にMRI装置内でCMなどの映像を約2時間視聴してもらい、その時の脳活動をfMRIにより計測します（図2（A）参照）。一方で、同じ映像内の各シーンに対して、被験者とは別の人々にシーンを説明する言語記述を行ってもらい、そのシーンを見て感じる内容を文章の形で評価します（図2（B）参照）。

シーン記述を、あらかじめWikipediaの大規模テキストデータから学習しておいた言語特徴空間の表現に変換し、シーン記述の言語特徴表現（言語特徴ベクター）を得ます（図2（C）参照）。本技術では、言語特徴空間の学習に、2013年にGoogleの研究者が開発したword2vecと呼ばれる技術を利用しており、言語特徴空間は100次元のベクター空間として表現されています。したがって、1つのシーン記述は言語特徴空間内の1点に対応する100次元の特徴ベクターに変換されます。映像を視聴する実験で計測した約2時間分の脳活動には、同じ映像のシーン記述から得た約2時間分の特徴ベクターが対応付いています（図2（D）参照）。その対応付いた2種類のデータに機械学習を適用することで、脳活動と言語特徴空間の対応関係を推定し、その対応関係を重み係数として保持します。

以上がデコーダーの構築方法です。デコーダーが保持している重み係数を利用することで、新たに計測した脳活動に対して、対応する言語特徴空間内の1点を推定することが可能になります。

図2: デコーダー構築の概要図
［画像クリックで拡大表示］

2．映像を見て感じた内容の推定方法

構築したデコーダーを用いて、新たに計測した脳活動から、映像を見て感じた内容を単語の形で推定する方法の概要を図3に示します。

新たに得られた脳活動から、デコーダーによって言語特徴空間内の1点、つまり1つの特徴ベクターを推定します。言語特徴空間内では、大規模テキストデータに含まれていた1万単語に対応する特徴ベクターも存在します。したがって、脳活動から推定した特徴ベクターに対する、1万単語の特徴ベクターそれぞれへの距離（類似度）が計算できます。類似度は、相関係数により-1から1の値で評価され、1に近いほど類似度が高いことを表します。言語特徴空間内でのベクターとベクターの類似度は、それらの意味的な類似度を反映するので、類似度が高い単語ほど、被験者が映像を見て感じた内容を反映する、もっともらしい単語とみなします。この評価を、名詞・動詞・形容詞に分けて行うことで、映像を見て感じた物体・動作・印象の内容を単語の形で推定します。

図3: デコーダーの推定を用いた、映像を見て感じた内容を表すもっともらしい単語の推定
［画像クリックで拡大表示］

また、デコーダーによる推定の正確さを評価するために、新たに得られた脳活動から推定した特徴ベクターと、そのペアとなる映像のシーン記述から評価した特徴ベクターの類似度を計算しました。ここでも、-1から1の値で類似度を反映する相関係数を評価指標として用いました。その結果、6名の被験者で相関係数は0.40から0.45の値となり、統計的に有意な、十分に高い類似度が認められました。この結果は、本技術が映像を見て感じた内容を高い精度で推定可能なことを示します。

※今回実施したfMRI実験については、NICTの倫理委員会の承認を得ており、被験者には実験内容を事前説明の上、参加への同意を取っています。

* Googleは、Google Inc.の登録商標です。

* その他、各会社名、各製品名及びサービス名などは、一般に各社の商標又は登録商標です。

用語解説

脳情報デコーディング技術

画像や映像などから感じた内容を脳活動から解読する技術の総称。そのままでは観測できない脳内で表現されている情報を見えるようにする手法として、近年の神経科学研究で広く利用されている。それだけでなく、工学分野や臨床分野への応用として、下記の脳と機械のインタフェースや発話を介さないコミュニケーションを実現するための基盤技術としても注目を集めている。

元の記事へ

脳情報デコーディング技術に基づく映像コンテンツ評価手法

映像コンテンツを見て感じた内容を、脳活動から脳情報デコーディング技術を用いて読み取り、それを指標として映像コンテンツの評価を行う手法のこと。従来型のアンケートやインタビューによる映像コンテンツ評価に加えて、この手法を取り入れることで、脳という新たな観点からの映像コンテンツ評価を行うことが可能となる。私たちの研究グループは株式会社NTTデータと共同で、2015年度からこの手法の実証実験を行い、2016年度からはこの手法の知的財産権をNICTから株式会社NTTデータへライセンス提供して事業展開を開始している。

プレスリリース「脳活動パターンの解読技術を活用する実証実験により、動画広告・コンテンツの評価で効果を確認」

元の記事へ

脳と機械のインタフェース

脳情報デコーディング技術による脳内情報の解読、又は脳への電気や磁気による刺激によって、脳と機械の間のダイレクトな情報伝達を実現するインタフェースの総称。脳と機械のインタフェースを用いることで、頭のなかで意図しただけで機械を操作したり、目や耳などの感覚器を介さずに視聴覚情報を脳へ直接入力したりすることが可能になると期待されている。事故や病気などで傷害した運動機能や認知機能を補う道具として、介護・福祉における応用が期待されるだけでなく、次世代の様々な脳情報通信技術においても重要な役割を担うと考えられている。

元の記事へ

言語特徴空間

人間が使う自然言語を計算機に理解させるための工学技術である自然言語処理を用いて、Wikipediaのような大規模テキストデータから学習される、単語や文などを数値で表現する多次元空間のこと。例えば、大規模テキストデータ内での単語出現の統計を利用して学習を行い、テキストデータに含まれる単語をそれぞれ空間内の1点として表現するような多次元空間を獲得する。また、その空間内では、単語と単語の意味の近さ・遠さを空間内の点と点の距離の近さ・遠さで表現するようなことも可能となる。