要旨
独立行政法人理化学研究所(野依良治理事長)は、知識情報を扱う国際標準規格「セマンティックウェブ※1形式」に準拠したライフサイエンス系のデータに、さまざまな情報ツールやプログラミング言語からウェブ経由でアクセスできるインターフェース「セマンティックJSON(ジェイソン)※2」を開発、2011年6月1日より一般に公開します。このインターフェースを介して取得されるデータは、パソコンやモバイル端末による自動探索に適しており、公開・非公開データの複雑なつながりをアクセス権に応じて探索することが可能で、人工知能的な技術と組み合わせてさまざまな社会的サービスに応用することが期待できます。これは、理研生命情報基盤研究部門 (理研BASE、豊田哲郎部門長) による研究成果です。
理研BASEは、生命情報の共同編さんや共有、プログラムによる活用までをすべてクラウド※3の中で行うことができるウェブ上の共同研究スペース(仮想ラボ)を提供することを目指し、2008年から仮想ラボセンター「SciNetS(サイネス)」を開発してきました。個々の仮想ラボでは、標準的な語彙を使って研究データを体系的に整理し、セマンティックウェブの標準形式で世界的に流通させることができます。また、公開データだけでなく非公開データもあわせてプログラム的に扱うことができます。しかし、SciNetSで非公開データを活用するには、アクセス権を考慮したセマンティックウェブの活用技術が必要でした。
そこで理研BASEは、セキュリティーやデータアクセス権を考慮したセマンティックウェブ検索技術を簡易なウェブインターフェースとして世界で初めて実用化し、これまでに、ライフサイエンス研究の分野でのマウス表現型※4における国際データ連携、統合データベースプロジェクト、植物ゲノムをデザインする合理的ゲノム設計コンテストなどに応用してその有効性を検証してきました。2011年5月現在、192件の仮想ラボから公開されたデータが体系的に統合化されています。今後は、基礎研究だけでなく、健康情報活用サービス※5やテレワーク※6など広く社会的サービスに応用する研究を後押ししていく計画です。
本研究成果は、英国の科学雑誌『Nucleic Acids Research』の、オンライン版(6月1日付け:日本時間6月1日)に掲載され、6月1日よりセマンティックJSONが一般に公開されます。
背景
ライフサイエンスの研究活動を行う上で、遺伝子情報やタンパク質構造など大規模で多種多様なデータを体系的に蓄積した生命情報基盤は不可欠です。この生命情報基盤があって初めて、最先端技術で計測した新しいデータを真に深く理解する研究が可能になります。しかし、従来のデータベース技術では扱えるデータの種類が限られており、高度なデータ処理と統合的な解析のためには、多種多様なライフサイエンスに関連するデータを体系的に整理して提供する情報基盤が求められていました。
理研BASEはこれまでに、ライフサイエンスのさまざまなデータを格納し、同時にその関係性を体系的に整理することができる仮想ラボセンター(クラウドによる連携センター)の研究基盤を開発し、「SciNetS (サイネス、Scientists’ Networking System)」 と名付けました(図1)。SciNetSは、理研が生み出すデータの公開窓口の機能を果たすだけでなく、科学者同士を結びつけ、個別研究だけでは成し得なかった、より高度な科学的発見を積極的に生み出すための生命情報基盤として、新たな研究連携を促進する目的でも利用されています(図2)。
このSciNetSにさらに求められる技術としては、ウェブブラウザで直接閲覧するだけでなく、パソコンやモバイルなどさまざまな端末のアプリケーションからプログラミング言語を使って簡便にアクセスして人工知能的な処理に応用できることなどがあげられていました。
研究手法と成果
SciNetSで管理されるデータは、世界的なデータの流通を促進し、人工知能的な技術で利活用するための標準技術であるセマンティックウェブ形式に基づいて記述されています。これらセマンティックウェブデータを、利用者が従来研究で使用してきたさまざまなプログラミング言語や情報ツールを用いて、ウェブ経由で簡便に利用するために、理研BASEは、新たなプログラミングインターフェース「セマンティックJSON (http://semantic-json.org)」を開発、2011年6月1日から一般に公開します。このインターフェースを介して取得されるデータは、JSONと呼ぶデータ形式で記述されるため、端末やプログラミング言語に依存しないデータ解析を実現します。
研究現場では、しばしば公開データと研究者が持つ非公開データとを統合させてその解析を進めることが必要になります。しかし、多数の仮想ラボごとに利用者のアクセス権が異なるため、非公開データを仮想ラボから安易に持ち出すと、その後のアクセス権を管理できずセキュリティーに問題が生じます。このため、データアクセスのインターフェースを仮想ラボ側にもたせてアクセス管理し、アクセス権の異なる複数の仮想ラボにまたがったデータ間の関係情報についても適切に取得できる技術が必要でした。
今回、理研BASEが開発したセマンティックJSONでは、twitterなどのソーシャルメディアで使われるURL短縮サービス※7に似た仕組みで、SciNetS内外にあるデータのURLを短い文字列に変換し、その文字列からアクセス権をSciNetSに毎回問い合わせることで、個々の利用者がアクセス可能なデータだけを選んで提供します。
また、通常のURL短縮サービスでは、1つのURLに対して1つの短縮URLを対応させるだけなので、短縮URLどうしの間の関係性が不明ですが、セマンティックJSONでは、1つのURLに対してさまざまな関係性情報を取得するための短縮URLもあわせて対応付けているため、セマンティックウェブの構造を反映させることができます(図3)。
これにより、セマンティックJSONは、従来のセマンティックウェブデータツールにはないセキュリティーやデータアクセス権を考慮したデータアクセスを可能にします。そのため、SciNetS上にこれらの公開、非公開データを配置し、セマンティックJSONで検索すると、個々の仮想ラボの枠組みを超えて、公開データ間だけでなく非公開データ間の関連性も取得することができます。利用者はさまざまなデータの中から1つのデータを選択するだけで、それに関連する階層の異なるデータ群の中から、公開データや、利用者のアクセス権に応じた非公開のデータを個別に取り出すことができ、情報の統合的な活用を実現します。
これまでの実証研究において、理研BASEは、このセマンティックJSONをSciNetS上でプログラムを作成するツールの実装に適用しました。第1回合理的ゲノム設計コンテンスト(2010年5月24日発表)では、66名の参加者があり、ウェブブラウザ上で、理研SciNetS上のデータを用いてシロイヌナズナのDNA配列設計を行うことができました。
今後の期待
理研BASEはこれまでに、SciNetSによる研究者の連携を進めてきました。国際的には、シロイヌナズナとマウス表現型の国際データ連携において日本のデータ公開窓口を担い、国内向けには、科学技術振興機構(JST)のバイオサイエンスデータベースセンターの活動をサポートするための拠点の1つでもあります。また将来的には、SciNetSなどのクラウドを使ったテレワークへの期待も高まっています。これらの役割を担う上で、今回、SciNetSの仮想ラボから公開されたデータに対して、セマンティックJSONを介したデータの受け渡しを実現したことは、通信速度の遅い回線やデータ記憶容量の少ないさまざまな端末(パソコンやモバイルなど)からの利用を可能にした点で、大きな意義を持ちます。
今後、理研の各研究者が生産する個別データ(個人知)を、統合的に解析して体系的なデータ(理研知データ)として整理し、さらにセマンティックJSONを活用してSciNetSから公開化していくことで、各研究センターの活動と社会を情報面からつなぐ役割を担い、個人知から理研知へ、そして社会知へとデータを還元していくことが期待されています(図4)。
また、これら情報技術を発展させることにより、生命情報基盤の研究開発を集中的に推進していき、将来的には、情報医療(Information as Medicine)※8や健康情報活用サービスなど、次世代医療と健康のための社会知形成へとつなげていきます。具体的には、非公開データとして取り扱われる個人の医療・健康情報と、公開データである健康知識データを利用者側の端末で統合し、自身の健康状態に即して推論された推奨情報(電子書籍など)を取得する健康情報活用サービスや、どの医療機関でも即座に自身の医療情報を提示できる「どこでもMY病院」構想※5への貢献も期待できます。