刊行物

研究最前線

脳が意思決定をするとき


どうすれば、好きな人に喜んでもらえるのか。私たちはさまざまな状況の中で適切な行動を選択する意思決定を絶えず行っている。そのとき脳の中ではどのような情報処理が行われているのか。理研和光研究所 脳科学総合研究センター 理論統合脳科学研究チームでは、理論と実験を融合した研究により意思決定における脳の情報処理の過程を探っている。


中原裕之  Hiroyuki Nakahara 和光研究所 脳科学総合研究センター 理論統合脳科学研究チーム チームリーダー 1967年、神奈川県生まれ。学術博士。東京大学総合文化研究科博士課程。米国カリフォルニア大学サンディエゴ校認知科学学部 客員研究員を経て、1997年、理研脳科学総合研究センター 基礎科学特別研究員。2006年より現職。
理論統合脳科学研究チーム 脳科学総合研究センター

タイトル図 脳が相手の気持ちになって考えるとき
タイトル図 脳が相手の気持ちになって考えるとき


“脳は“報酬”を求めて学習する?

 私たちは、経験を積み重ね試行錯誤することにより、さまざまな状況において、より適切な行動を選択できるように学習していく。「そのときに脳で行われている情報処理と、“強化学習”と呼ばれるコンピュータの学習アルゴリズム(計算方法や手順)に共通性があることが分かってきました」と中原裕之チームリーダー(TL)。オセロやバックギャモン(西洋双六(すごろく))をコンピュータに強化学習させると、人間の世界チャンピオンと同等の実力を持つまでに上達する。強化学習は、ヒト型ロボットの開発にも応用されている。
 強化学習では、“報酬予測誤差”と呼ばれる信号が使われる。それは、実際に得られた報酬と事前に予測した報酬との差を示す信号だ。例えば、ある状況で選択肢が二つあって、一方を選択したとき、予測よりも大きな報酬を得たとする。そのとき報酬予測誤差の信号は強くなる。これが学習信号として働くことで、報酬予測の精度が向上する。そして、次に同じ状況になったときに同じ行動を選択するように学習していく。
 1990年代半ば、その報酬予測誤差の信号と、脳の奥にある大脳基底核の“ドーパミン神経細胞”の活動パターンが似ていることが指摘された。脳の情報処理は、たくさんの神経細胞同士が情報をやりとりすることで行われる。脳がある事柄を学習するとき、神経細胞同士のつながり方が変化する。そのとき、大脳基底核から脳のさまざまな領域に投射するドーパミン神経細胞が活動して、ドーパミンという神経伝達物質を分泌する。それが報酬予測誤差の信号として働き、神経細胞のつながり方を変化させ、学習が進むと考えられている。「報酬の予測自体を私たちは“価値”と呼んでいます。脳はさまざまな行動の価値を学びます。ある場面でどの行動を選ぶか、その選択肢の価値を比べて決めるのです。価値がいわば意思決定のための“脳内通貨”として使われています」

実験と理論で脳の意思決定の情報処理に迫る

図1 報酬を得たときの報酬予測誤差信号 サルのドーパミン神経細胞の反応(C)は、“記憶あり”の強化学習アルゴリズムの計算シミュレーションの反応(B)と一致することが分かった。2004年1月22日プレスリリース「記憶を使った脳の報酬予測のメカニズムの一端を解明」より
図1 報酬を得たときの報酬予測誤差信号
サルのドーパミン神経細胞の反応(C)は、“記憶あり”の強化学習アルゴリズムの計算シミュレーションの反応(B)と一致することが分かった。
2004年1月22日プレスリリース「記憶を使った脳の報酬予測のメカニズムの一端を解明」より

 「報酬予測誤差の信号とドーパミン神経細胞の活動パターンの関係が指摘されましたが、その詳細な実態はよく分かっていませんでした」。中原TLたちは2004年、計算機シミュレーションとサルを用いた実験により、ドーパミン神経細胞がどのような報酬予測誤差の信号を出して学習が進むのか、詳しく調べた。「強化学習には、“記憶なし”という従来のアルゴリズムのほかに、“記憶あり”と呼ばれる新しいアルゴリズムが開発されました。例えば、私たちにとって1週間のうちで日曜日が報酬だとしましょう」と中原TLは説明を続ける。「今日が何曜日か知らない状態で明日が日曜日であるかを予測するのが、“記憶なし”の報酬予測です。その場合、日曜日である確率は7分の1です。一方、今日が何曜日か知っていて予測するのが、“記憶あり”の報酬予測です。その場合、今日が土曜日だと知っていたら、明日が日曜日である確率は100%。記憶を使う場合と、記憶を使わない場合とでは、報酬予測に違いが生まれます。学習するとき、脳のドーパミン神経細胞は、どちらか一方の報酬予測に基づいて報酬予測誤差の信号を出しているはずです」
 脳はどちらの報酬予測を行っているのかを確かめるために、中原TLたちは、平均すると4回に1回の割合で報酬を得られる課題をサルに訓練させた。このとき、無報酬の回が続くほど、報酬を得られる確率が高くなるように設定した。「その法則を学習し、それを手掛かりにして予測する“記憶あり”と、手掛かりなしで予測する“記憶なし”では、ドーパミン神経細胞が出す報酬予測誤差の信号に違いが現れるはずです。まず、二つの脳計算モデルをつくりシミュレーションしてみました」
 記憶なしの場合、無報酬の回数が続くほど、次も報酬はもらえないだろうと考え、報酬をもらえる確率の予測をどんどん下げていく。「そこで実際に報酬がもらえると、予測との大きな差に驚き、ドーパミン神経細胞は大きく反応して報酬予測誤差の信号を強く出すはずです。この記憶なしのモデルでは、無報酬の回数が増えるほど報酬がもらえたときの反応が大きくなる右肩上がりのグラフになりました」(図1A
 一方、記憶ありでは、無報酬の回が続くほど、次は報酬を得られる確率が高くなるという法則を学習し、それを手掛かりに報酬予測を行う。「すると、無報酬の回数が続くほど、次は報酬をもらえる確率が高くなる、と予測します。そして実際に報酬がもらえても、予測通りで驚きはなく、報酬予測誤差の信号は小さくなるはずです。この記憶ありのモデルでは、無報酬の回数が増えるほど報酬がもらえたときの反応が小さくなる右肩下がりのグラフになりました」(図1B
 では、実際の脳のドーパミン神経細胞はどのように反応するのか。学習後のサルのドーパミン神経細胞の反応を計測すると(図1C)、記憶ありのグラフ(図1B)と一致した。「脳が意思決定するとき、過去の情報や知識を手掛かりに報酬予測を行う記憶ありの強化学習と似た情報処理が行われていることが初めて分かったのです」

脳が相手の気持ちになって考えるとき

図2 fMRIモデル化解析手法 ①脳計算モデルと行動データを比較検証することで、②情報処理における主変数を同定。その主変数を脳活動データの解析に適用することで、脳の活動領域と情報処理の過程を対応づける。
図2 fMRIモデル化解析手法
①脳計算モデルと行動データを比較検証することで、②情報処理における主変数を同定。その主変数を脳活動データの解析に適用することで、脳の活動領域と情報処理の過程を対応づける。

 「私たちが意思決定に悩むのは、人間関係に関わることが多いですよね」と中原TL。「好きな人に対して、どのように行動すれば喜んでもらえるのか。苦手な上司にどう接すればいいのか……。行動の選択、意思決定に悩む社会的な場面において、“相手の気持ちになって考えなさい”とよく言われます。そのとき、脳の中ではどのような情報処理が行われているのか。そのような、人間に特徴的な意思決定の過程を科学的に解明することは、これまでは困難でした」
 中原TLたちは、解明を進めてきた報酬予測誤差に基づく意思決定に注目して、相手の気持ちになって考えるときの脳を探ることにした。そのために、30名以上の被験者に、脳の活動を計測する機能的核磁気共鳴画像装置(fMRI)の中で、モニターを見ながら二つの課題を行ってもらった(タイトル図)。
 一つ目は、見せられた2種類の図形のどちらかを選択し、それが正解であれば報酬が得られる。これを繰り返し、どちらの図形が正解である確率が高いか(価値判断)を学習していく“報酬学習課題”(タイトル図A)。二つ目は、他者が同じ報酬学習課題を行っているとき、どちらの図形を選ぶかを予測し、他者の行動選択を学習していく “他者予測課題”である(タイトル図B)。この課題では、他者の行動予測が当たれば正解として報酬を得られる。「二つ目の課題が、相手の気持ちになって考える場合です。他者の選択が予測と違うと驚く。その驚き具合、報酬予測誤差を使って、相手の気持ちを学習していくのです」
 相手の気持ちになって考えるときの脳については、古くから二つの説が出されていた。一つは、相手の状況を自分の脳内に再現して、自分だったらどうするかを考える“シミュレーション説”。もう一つは、他者が何にどう反応するのか行動パターンのみを学習する“行動パターン説”だ。
 中原TLたちは、脳の情報処理の過程をコンピュータ上で再現する3種類の脳計算モデルをつくった。シミュレーション説と行動パターン説それぞれに基づくもの、そして二つの説を統合したモデルだ。そして他者予測課題の実験データがどのモデルと一致するかを調べるため、脳の活動領域と情報処理の過程を対応づける“fMRIモデル化解析”を行った(図2)。
 すると、二つの説を統合したモデルが他者予測課題の実験データに最もよく一致すること、そのとき脳の二つの領域が主に活動していることが分かった。タイトル図Cの赤色と緑色がその脳活動領域だ。青色は、自分自身が報酬学習課題を行っているときの脳活動領域。赤色が、他者予測をするために他者の心の中をシミュレーションしている脳活動領域である。青色と赤色が重なった領域を紫色で示してある。「この紫色の領域が、シミュレーション説の領域だと考えられます」
 他者予測課題だけで活動した緑色の領域は、これまで他者と関わる社会性に関係すると指摘されていた場所だった。「緑色が行動パターン説の領域だと考えられます。自分が相手の状況に置かれたらどうするかを考えるとき、自分だったらどうするかを考えるだけでは相手の気持ちは分かりません。他者が自分と同じように考えるとは限らないからです。緑色の領域で、他者と自分の違いを補正していると考えられます」

人生論を脳の情報処理として理解する

 他者予測課題で働く二つの領域(赤色と緑色)が、それぞれどれくらい活動して情報処理が行われるのか。その違いが、相手の気持ちになって考えるときの、人それぞれの個性になっているのかもしれない。例えば、他者と自分の違いを補正する領域(緑色)の活動度が低い人は、相手は自分と同じように考えるはずだ、と判断する傾向が強い可能性がある。「このように複数の領域を組み合わせて情報処理が行われるとき、それぞれの領域の活動度の違いが意思決定や行動のバラエティーとしてどのように現れるのか、それはまだ脳科学においてあまり検討されていません」
 さまざまな社会的な状況において、どのような事柄を考慮に入れて意思決定すべきか、といった“社会的知性”については、社会科学や小説、あるいは人生論や経験論などとして語られてきた。「脳のどのような事柄に関わる領域を組み合わせて意思決定が行われるのかを探る私たちの研究は、人生論などで語られてきたことを脳の情報処理の仕組みから理解することにつながると考えています」。社会的知性を脳の働きから理解する“社会脳科学”が発展しつつある現在、脳の数理モデルを実験に適用する中原TLたちの研究は、必ずや新たな展開をもたらすだろう。
 他者と自分の違いを補正する領域(緑色)の近くには、発達障害との関係が指摘されている領域がある。「ある状況でAという行動が適切なのに、Bという行動をいつも選択してしまうような精神的な疾患は、意思決定で働く特定領域の活動度が高過ぎたり、逆に低過ぎたりすることで発症するのかもしれません。将来、精神医学にも貢献できるように研究を発展させたいと考えています。それは、いわば“計算論的精神医学”とでもいうべき新分野の開拓につながると考えています」

脳の時間の謎

 「数学的にどのように扱うべきか、よく分からない要素も見えてきました。その一つは、脳の時間です」と中原TL。「例えば、今すぐ10の価値の報酬をもらえる場合と、10日後に100の報酬をもらえる場合のどちらを選択するか。そのように時間と報酬が関わる価値判断です。そもそも現在の10秒と10日後の10秒は時計で計ると同じ長さですが、脳の中で同じ長さとして理解されているのかと問われると、そう思えない場合がありますよね。脳が価値判断を行うときの時間は、時計が刻む時間と必ずしも同じではありません。私たちは、脳の時間を仮定して、価値判断に基づく意思決定の情報処理の過程を数学的に解析する研究も進めています」
 時間と報酬が関わる意思決定は経済学などで議論されてきた。近年、経済的な意思決定のメカニズムを脳科学から解明する“神経経済学”と呼ばれる分野も活発化している。中原TLたちは、意思決定の視点から神経経済学と社会脳科学に共通するテーマを見いだしている。「将来、さまざまな社会科学が脳の視点から融合していき、人間総合科学となって発展していくと思います。その骨格づくりに貢献していきたいですね」

愛情も脳の情報処理として理解できる?

 「自分が取った行動で好きな相手が喜ぶとうれしいですよね。すると再び喜ばれる行動を選択しようとします。そのような愛情を深めていく過程と、私たちが研究している価値判断に基づく意思決定を行い適切な行動を学習していく過程には、共通点があると思います」
 愛情も脳の情報処理として理解できる日が来るのだろうか。「燃え上がるような愛情と、長期にわたり抱き続ける愛情では、何かが違う気がしますよね。実際にそれぞれの愛情では、脳の活動領域に違いがあるという実験結果も報告されています。“研究は、科学的に答えることができるぎりぎりのテーマを選ぶべきだ”と言われます。愛情を深める過程を近い将来、研究テーマとして扱えるかどうかは分かりませんが、そのようなテーマとのつながりも考えながら研究を進めています。情動や感情、そして愛情も根本的には脳の情報処理だと考えています」

神経細胞の相互作用を解析する新しい数学を築く

 ここまで紹介してきた意思決定の研究とともに、理論統合脳科学研究チームには、もう一つ大きな研究の柱がある。脳の情報処理を担う多数の神経細胞の活動を数学的に解析する研究だ。「私たちが見たり聞いたり考えたりすることは、すべて神経細胞の活動によります。私たちの心や知能の働きは、すべて神経細胞の活動パターンとして現れます。その活動パターンが変化していくことで、脳はさまざまな機能を発揮します」
 ヒトの脳には1000億個に近い神経細胞があり、それぞれが複雑につながり巨大なネットワークをつくっている。その膨大な数の神経細胞の活動パターンを読み解くには、確率や統計などを駆使した数学的な解析が必要となる。理研脳科学総合研究センターの甘利俊一 特別顧問が提唱した“情報幾何”は、確率分布や統計分布を幾何学的に解析する統計情報科学の新分野だ。中原TLも、情報幾何を神経細胞の活動パターンの解析に適用する研究を進めてきた。「その経験が、研究チームを立ち上げてからの新たな研究に役立っています」
 中原TLが特に注目しているのは、神経細胞の相互作用だ。「A・B・Cという3個の神経細胞の相互作用を解析するとき、AとB、AとC、BとCの3通りの相互作用を調べるだけでは不十分です。例えばAとBの関係は、Cがある場合とCがない場合で変わってきます。それは人間関係でも想像がつくでしょう。同僚同士の人間関係も、上司あるいは部下がいるかいないかで変わりますよね。それと同じで、3個以上の神経細胞の相互作用をうまく解析し、神経細胞の活動パターンを読み解くことで、初めてその情報処理の本質に迫ることができます。そのような神経細胞の相互作用を理解するための新しい数学に基づく解析理論をつくる研究、その解析理論により神経細胞の活動パターンを読み解く研究を進めています」
 そのような解析理論は、脳科学全体の重要な基盤の一つとなるはずだ。「もちろん、意思決定や社会的知性の脳科学を推進することにも役立ちます。私は、理論と実験の融合をより深化させて、神経細胞の集団活動による情報処理の原理を理解したいのです。そして、私たちの日常の意思決定を、複雑な神経回路網で起きる膨大な数の神経細胞の活動パターンとして読み解くことができる日を夢見ています。大きなチャレンジですが、同志を増やして挑んでいきたいですね」