要旨
独立行政法人理化学研究所(野依良治理事長)は、コンピュータ上で疑似的に模倣した脳神経ネットワークに、ライフサイエンスの膨大な知識情報を学習させ、有用な情報を瞬時に想起してランキングする検索システムを開発しました。これを、病気の関連遺伝子を探索している研究者に思考支援システムとしてインターネット上で無償提供したところ、多くの成功事例にシステムが貢献していることを確認しました。これは、理研生命情報基盤研究部門(理研BASE、豊田哲郎部門長)による研究成果です。
ライフサイエンスの研究分野では、生体計測の技術が急速に進歩し、ゲノムやタンパク質に関する膨大なデータや文献情報が爆発的に増加しました。従来のように研究者がこれらの知識を自ら学習し、推論するという古典的な手法には限界がきています。このため、研究者に代わって膨大な知識を学習し、望む道筋に沿って自動的に推論した内容を提示する優れた知能化情報処理システムが必要となっています。理研BASEは、さまざまな研究者の集合知を集める情報基盤「理研サイネス※1」を使って、国際的な連携でデータ編さんした文献や遺伝子、代謝物などに関する情報を、それぞれに相当する数千万の疑似的な神経細胞(ニューロン)の結びつきに見立て、“ヘブ則※2”という学習ルールで統計的にモデル化し、GRASE法※3で瞬間的に推論検索を実行するサービスを利用者に提供しています。
この検索システムをPosMed(ポスメド:Positional Medline)と名付け、約4年間(2005年~2008年)研究者に提供したところ、理研における大規模ENU変異マウス開発プロジェクト※4でも、65例以上のENU変異マウスで変異遺伝子の同定に貢献し、国内外からも3件の成功事例が学術論文として報告され、類似の検索システムとの比較でも、正答率が高いことが第三者の研究グループの報告で明らかとなりました※5。このPosMedは、英国の学術誌『Nucleic Acids Research』のオンライン版7月1日号に掲載されました。また、この検索技術を医学分野に限らず、環境問題や食糧問題に取り組む植物研究者が、イネとシロイヌナズナのデータも検索できるように拡張したPosMed-plusが、日本植物生理学会が発行する国際学術誌『Plant & Cell Physiology』のオンライン版7月13日号に掲載されます。さらに、PosMedにより検索されたゲノムデータを詳細に閲覧するための可視化ツールOmicBrowseについても、英国の学術誌『Nucleic Acids Research』のオンライン版7月1日号に掲載され、合計3報の関連論文を相次いで発表しました。これらのツールはRIKEN Hub Database Projectから無償で公開されています。
背景
病気のかかりやすさに関連する遺伝子を見つけ出す研究や、穀物の収穫量に影響する遺伝子を探し出す研究は、人類の生存に大きく貢献する重要な研究テーマで、大きなくくりで「遺伝子研究」と呼ばれています。ヒトやイネなどの高等動植物では数万の遺伝子を持っており、その中から有用な機能を持つ遺伝子や病気に関係する遺伝子を探し出す研究は容易ではありません。さまざまな情報を組み合わせて段階的に候補となる遺伝子の数を絞り込んでいく作業では、既存の知識を総動員して遺伝子の機能を解釈する必要があります。一方、遺伝子に関するデータや文献情報は膨大化しつづけ、従来のように研究者が文献を読みながらこれらの知識を自ら学習し、研究上の推論を行うという、古典的なアプローチの研究スタイルには限界がきています。また、データベースもそれぞれ異なるデータ形式と公開方法で、ばらばらに提供されているため、研究者がデータを統合的に活用することをさらに困難にしています。このため、データベースの統合化と高度な利用技術の開発が重要になっています。特に、研究者が自らの頭脳で情報を結びつけて推論していたプロセスを、コンピュータに行わせることで、研究者の思考を支援する生命情報基盤が必要とされています。
研究手法
理研BASEでは、ライフサイエンスの膨大な情報を統合化し、研究者に有用な情報を提供するための情報システムを研究開発してきました。その結果、「研究者が望む思考パターンに沿った情報提供が可能な統合データベースシステムでは、そのデータ構造が脳の神経ネットワークの構造に類似してくる」という経験則を発見しました。その類似の理由は、恐らく、研究者の頭脳の思考様式が脳の神経ネットワークの構造に支配されているため、その思考を支援するシステムにもおのずと神経ネットワークに類似したデータ構造が必要になったのであろうと推測されます(主体規定説:認識の主体がデータ構造を規定するという説)。
しかし、従来のバイオ系データベース構築は、「記述対象の構造に基づいて、そのデータの構造も規定される」という逆の考え方が主流でした。例えば、遺伝子情報には、ゲノム上に存在する遺伝子の位置関係でデータベースの構造が規定され、代謝情報については代謝経路に沿った分子ネットワークの関係性でデータベースの構造が規定されるという考え方が常識となっていました(客体規定説:認識される客体がそのデータ構造を規定するという説)。この客体規定説では、対象とするデータの種類が少ないうちは最適なデータ構造でデータベースを迅速に作成できますが、データベースの種類が多様化するにつれ、データの構造も多様化するため、それらの統合化が困難になるという欠点がありました。
そこで、理研BASEでは主体規定説に立脚し、ゲノム情報や代謝情報、文献情報をすべて、脳神経細胞(ニューロン)のネットワークを模倣した疑似ニューロンの単純なつながりで統合化した「脳型データベース」を開発し、ライフサイエンス分野の研究者が望む情報検索の可能性について研究してきました。
まず、疑似ニューロンの構築にあたり、理研サイネスに蓄積された文献情報、ゲノム情報、表現型情報などの主要な公開データベース群から、マウス遺伝子、代謝物、薬物など約30万件のトピックを抽出して、それぞれを疑似ニューロンとしました。
また、生命科学に関する文献の要旨を集めたMEDLINE※6から、上記のトピックに関連する約1,700万件のドキュメントも、それぞれ疑似ニューロンとしました(各ドキュメントに対応する疑似ニューロンを「ドキュメントロン」と呼びます)。検索時に研究者が指定したキーワードを含んでいるドキュメントロンは、疑似ニューロンとしてアクティブな状態になり、つながっているほかの疑似ニューロンに信号を送ることで、脳の仕組みに類似した情報処理が行われます。
ドキュメントロンとほかのトピックを表す疑似ニューロンとの結びつけは正確性が要求されます。研究グループは、英文読解能力の高い海外の研究者との国際連携により、トピックごとに文献を関連づける作業を理研サイネスの情報基盤で進めてきました。この理研サイネスは、研究者の集合知を集めるための情報基盤であり、その集合知を、“ヘブ則”という学習ルールに基づいて、疑似ニューロンの統計的なつながりとして自動学習させることで、脳型の統合データベースを構築しました(図1)。
こうして構築された脳型データベースを瞬時に検索する技術として、理研BASEが開発したGRASE法を適用して瞬間的に推論検索を実行可能にしました。
研究成果
この検索システムをPosMed(ポスメド:Positional Medline)と名付け、2005年11月より、主に遺伝学研究者に向けインターネット上で試験公開しました。PosMedは、ユーザからキーワードなどの検索条件を受け取ると、わずか数秒でランキングしたトピックリストを表示します(図2)。ヒトやイネなどの高等動植物では数万の遺伝子を持っています。その中から有用な機能を持つ遺伝子や病気に関係する遺伝子を探し出す際に、さまざまな情報を組み合わせて、段階的にその候補となる遺伝子の数を絞り込む必要があります。その手掛かりとなる情報をPosMedが提供するため、研究者は既存の知識を総動員して遺伝子の機能を解釈することが容易になります。現在までにPosMedが連想的に連結して提示できる情報には、ヒト・マウス・ラット・シロイヌナズナ・イネの各遺伝子や代謝物、薬物、疾病、さらに、変異体の表現型のデータベースがあります。
PosMedは、理研における大規模ENU変異マウス開発プロジェクトでも、65例以上のENU変異マウスで変異遺伝子の同定に貢献し、国内外からも3件の成功事例が学術論文として報告されています。さらにPosMedは、類似の検索システムとの比較でも、正答率が高いことが中立な第三者の研究グループによる比較研究の結果から示されました。このPosMedは、英国の学術誌『Nucleic Acids Research』のオンライン版7月1日号に掲載されたほか、この検索技術を医学分野に限らず、環境問題や食糧問題に取り組む植物研究者にも利用できるように、イネとシロイヌナズナのデータも検索できるように拡張したPosMed-plusが、日本植物生理学会が発行する国際学術誌『Plant & Cell Physiology』のオンライン版7月13日号に掲載されます。さらに、PosMedにより検索されたゲノムデータを詳細に閲覧するための可視化ツールOmicBrowseについても、英国の学術誌『Nucleic Acids Research』のオンライン版7月1日号に掲載され、合計で3報の関連論文が採択されました。OmicBrowseは、客体規定説に立脚したデータ閲覧ソフトであり、ゲノムの構造に基づいて遺伝子に関するさまざまな情報を提示し、PosMedのような脳型データベースの機能の補完するものです。脳型データベースは利用する人間(認識の主体)に“気づき”を与えるのに効果的な仕組みです。データベースを利用する研究者が、ある遺伝子(認識の客体)に気づいて注目しだすと、OmicBrowseのような客体規定説に基づくデータ可視化ツールが効果的になります。脳型データベースは、どのデータに着目すべきか悩む研究者が、データ検索をする際の入り口として利用すると効果的であり、バイオ分野の多様なデータベース群を統合的に利用するための有効な手段となることが期待されます。