<参考>
理研サイネスの詳細
-理想的な生命情報基盤に求められる機能-(理研サイネスが有する機能)
- 内外の幅広い分野の研究者との共同研究
- 幅広い分野の研究者とのデータ解析研究【1】
- 新しいバイオインフォマティクス手法の研究と開発【2】
- 大規模データを介した連携研究のための情報基盤
- 大規模データを介した共同研究のための理研サイネス
“ライフサイエンスネットワーキングシステム”【3】
- 連携化支援機能【4】
- コラボレーション・レビュー機能【5】
- メッセージ機能【6】
- 電子ラボノート機能【7】
- コミュニティ機能【8】
- プロジェクト運営機能【9】
- オントロジープロジェクト【10】
- オントロジー構築機能【11】
- 異種オントロジー間対応付け支援機能【12】
- データベースプロジェクト【13】
- データベース構築機能【14】
- データベース公開機能【15】
- 文書タグ付けルール設定機能【16】
- 自動文書タグ付け機能【17】
- Wiki機能【18】
- データベーステンプレートプロジェクト【19】
- リポジトリ機能【21】
- 解析ツール拡張機能【23】
- データ自動解析機能【24】
- データ可視化機能【25】
- 一括ダウンロード機能【26】
- データフロー制御機能【28】
- 自動更新機能【30】
- 自動セマンティックウェブ変換機能【31】
- データベース自動統合更新機能【32】
- 推論検索機能【33】
- 推論検索エンジンGRASE(PosMed, etc.)【34】
- 階層構造一括検索機能【35】
- 塩基配列または化合物構造のようなキーワード以外の検索【36】
- 安定した運用【37】
- スーパーコンピュータとの連携【38】
- さまざまなサービスの機能【39】
- 災害対策【40】
- システムメンテナンスとサポートスタッフ【41】
近年のライフサイエンスが大量のデータを扱う科学へと急速に進展したことから、データ解析を専門に行うバイオインフォマティクスの人材が世界的に不足しています。理化学研究所生命情報基盤研究部門(理研BASE)では、バイオインフォマティクスの専門家を集めた研究組織として、幅広い分野の研究者と直接連携しながらデータ解析研究【1】を行ってきましたが、さらに多くの研究者どうしが効果的に連携しあえる情報基盤を提供することで、間接的にもバイオインフォマティクスの連携研究を強化する必要があると考え、大小さまざまな多数の研究連携群が大規模なデータベースを介して連携研究を行える情報システム「理研サイネス」を開発しました。
理研サイネスが提供する連携化支援機能【4】では、セキュアに区切られたサイバースペース内で未公開レベルのデータを扱える環境を個々の研究者に提供できるだけでなく、そこで編纂したデータの一部、または全部をデータベースとしてそのままインターネットへ公開化し、研究成果のパブリケーションメディアとしての役割も担うことができます。この理研サイネスを使うことで、理研のさまざまなデータベース公開を共通して行える窓口である「理研総合データベース」の運営も開始しました。この共通窓口からデータベースを公開化していくことで、データベース群の統合化や横断検索が必然的に実現されるため、文部科学省が推進するライフサイエンス分野の統合データベース委託研究開発事業でも、理研サイネスを使って理研の公開データベースの統合化が効率的に推進されています。
一方、疾患研究ではオミックスによるデータ駆動型のアプローチへの期待が高まっています。このアプローチでは、解析に必要となる網羅的分子から臨床データを戦略的に蓄積し、それら多様かつ膨大なデータを介して、ゲノミクス研究者、バイオインフォマティクス研究者、基礎研究者、臨床医、専門医など幅広い分野の研究者が効果的に連携しあえる情報基盤が必須となっています。この情報基盤は多階層・双方向的であるとともに、それぞれの階層が多様な研究分野の個々の現実的ニーズに応えられる独立性も求められるため、単なるデータベース構築機能だけでは不十分です。そこで、理研BASEでは、さまざまな研究プロジェクトに携わる大勢の研究者間でのデータフロー制御や自動データ処理を実現する機能を付加することによって、ライフサイエンス研究全般にわたってさまざまな研究プロジェクトに対応できる理想的な情報基盤システムとしての理研サイネスを開発しました。
理想的な生命情報基盤に求められる沢山の機能を総称して、「ライフサイエンスネットワーキングシステム【3】」と呼んでいることから、理研が運営するシステムには「理研サイネス(RIKEN SciNeS : RIKEN Life Science Networking System)」という名称をつけました。理研サイネスには「プロジェクト運営機能【9】」があり、ユーザが新規プロジェクトの立ち上げ申請をすると、理研サイネス内にそのプロジェクト用の仮想的なワーキングエリアを作成、申請者にはそのオーナー権限が与えられてプロジェクトの運営を開始できるようになります。オーナーは、複数の参画者を自分のプロジェクト内に招き入れてネットワーク経由で研究データを介したさまざまな連携活動を行うことができ、コンテンツの相互閲覧や共同編集を時系列で行いつつ、各コンテンツに対してペーパーレビューのような高度な査読手続きを適宜設定して品質管理を行える「コラボレーション・レビュー機能【5】」や、コンテンツ内の各データアイテムにコメントを添付して時系列でやりとりできる「メッセージ機能【6】」が提供され、実験計画から結果までの研究ログが時系列でデータベースに記録される「電子ラボノート機能【7】」も活用ができます。
理研サイネスのプロジェクト運営機能には、一般的なソーシャルネットワーキングサービス(SNS: Social Networking Service)にある「コミュニティ機能【8】」のほかに、ライフサイエンス研究を強力にサポートするための特別な機能として、「オントロジープロジェクト【10】」、「データベースプロジェクト【13】」、「データベーステンプレートプロジェクト【19】」の3種類の「プロジェクト運営機能【9】」が提供されています。
「オントロジープロジェクト【10】」では、参画者の研究者らが、理研サイネス上でオントロジーの個々のターム項目についてコメントを交換し合いながら、共同でオントロジーを定義していくことができる「オントロジー構築機能【11】」や「異種オントロジー間対応付け支援機能【12】」も提供されています。また、理研サイネスでは、国際的な連携にも対応できるように英語と日本語の併記でデータ作成することが可能になっています。
また「データベースプロジェクト【13】」では、「データベース構築機能【14】」を提供します。このプロジェクトでは、オーナーが許可した者以外では各データにアクセスできないため、理研サイネスを共同研究の初期段階からデータベース構築に利用することができ、後からアクセス権の設定を変更するだけで、データの一部または全部をデータベースとして容易に外部公開する「データベース公開機能【15】」を整備しています。また、理研サイネスでは、オントロジーの各概念クラスがデータベースとしての機能を備えています。そして、オントロジーの継承関係で複数のデータベースの統合関係を指定することで、各データベースは、オントロジーのクラス関係で自動的に階層化しており、あるデータベースで検索をかけると、その階層以下の全データベースを対象に一斉検索を実行する「階層的構造一括検索機能【35】」も連動します。サイネスを利用することで、研究者達は、データを扱うためのシステムを個別に準備する必要がなく、データ作成に専念できるようになりました。しかし、一般のユーザが、データベースを構築するために複雑なオントロジー概念やさまざまな条件を自分で指定することは難しいことです。そこでデータベースの立ち上げを容易化するための仕組みが「データベーステンプレートプロジェクト【19】」です。これは、データベース構築にあたり使用すべきオントロジーやデータクラスに関する諸条件を専門家があらかじめデータベースの雛型として登録しておいたもので、理研サイネスが提供する「データベースウィザード機能【20】」によって、ユーザはテンプレートから派生させた新しいデータベースプロジェクトを容易に立ち上げることができます。この際、同一テンプレートから派生したデータベースは、共通の親クラスを継承しているため、上述の階層化の仕組みによりそれらの派生データベースは互いに理研サイネスの中で仮想的に統合化されます。
また、データベース統合化は、外部の利用者にとっても大きな利便性をもたらします。例えば、理研には、300を超える研究室があり、それぞれが自発的に研究成果の発表を行っています。データ公開もさまざまな形式で実施、現在約90のデータ提供サイトが、ワールドワイドウェブに向けて公開している状況です。このため、どこにどのようなデータを公開しているのかが、専門分野外の人には分かりづらく、公開データの再利用や、コンピュータを使った統合利用が容易ではありませんでした。また、ライフサイエンスで扱われるデータのほとんどは、形式が定まっていない集積困難なデータで、これらについては、塩基配列やDNAチップデータのような集積リポジトリが存在しておらず、データ公開を難しくしていました。そこで理研サイネスでは、各研究室が公開するデータの永続性を研究所全体の責任として担保するために、各データアイテムに対してグローバルにユニークなID付与して外部公開し、外部者はそのIDから、該当するデータアイテムを容易に参照できる「リポジトリ機能【21】」を提供します。このIDは、国際標準として提案されているURIやHandle ID、LSIDといったほかのID表記法にも相互変換可能なように配慮して設計されており、ほかのリポジトリシステムと連携させることが可能です。また、理研サイネスでは各データアイテムにこのIDを最初から割り振り、公開・未公開に限らずすべてのデータをシームレスに関係づけています。このため、膨大な実験データやそれに関連するさまざまなデータを、データの種類に応じて別々の外部データベースに振り分けて登録した場合であっても、後日それら全体の関係性をIDによって復元することが可能なように配慮されています。また、理研サイネスのリポジトリ機能は、従来のリポジトリのようにファイルや画像など個々のデジタルコンテンツを格納する機能だけでなく、データベース自体を利用可能な状態のまま丸ごとひとつのコンテンツとして格納する「ライブデータベースリポジトリ機能【22】」という新しい特徴があります。
理研BASEでは、上記の理想的なサイネスの構築を進めるにあたり、セマンティックウェブ技術を導入いたしました。セマンティックウェブは今世紀に入って急速に国際標準としての仕様が確立した新しい情報技術です。現在、大型研究所全体のセキュアなデータ連携と大規模なデータ公開の両方が行える情報基盤を、国際標準であるセマンティックウェブ技術によって構築しているのは理研以外にありません。このシステムはセマンティックウェブとファイルシステムの両方の長所を併せ持つ“Semantic Web Folders(SWF)”という理研BASEが独自に開発した情報技術を使って実装されており、数千個の異なるデータベース群を一つのシステム内に包含して同時に運用することを想定し、データベースの数が増えても安定した動作が可能なシステムとして設計しています。
セマンティックウェブの特徴は、データの意味をコンピュータが自動解釈可能な形式で保持する点にあり、これにより、コンピュータが各データの型を自動判断して、それぞれに適切なデータ処理を自動的に行う「データ自動解析機能【24】」の実現を可能にすることができます。セマンティックウェブに追加されたデータを、システム内の巡回ロボット(クローラー)が、プロジェクトごとに設定されたセキュリティ制限に配慮しながら定期的に抽出し、各種データごとに必要な処理を自動実行して、人間にわかりやすい形式のレポートを自動作成し、データの種類に応じて適切なフォーマットでダウンロード用のファイルを自動作成しています。特にオミックスデータや画像データの自動解析では、定量化処理などによりさまざまな派生データが自動生成されるため、これらデータ間の関連性もセマンティックウェブ形式で理研サイネス内に記録保持することは、データのトレーサビリティーとデータガバナンスの強化に必須です。また、プロジェクトのオーナーは各データへのアクセス権やライセンス条項を細かく設定できるため、データの「一括ダウンロード機能【26】」や、条件に合う一部のデータのみを絞り込んでダウンロードする「データマート機能【27】」を理研サイネスから提供されています。さらに、既に別のサイトから公開されているデータベースをクローリングによってサイネスに取り込む「自動セマンティックウェブ変換機能【31】」も提供されており、プロジェクトのオーナーなど限られたユーザが利用可能です。
理研サイネスのデータフロー制御機能では、コンピュータによる自動処理のフローだけでなく、その途中で、人間が介在するデータ操作が必要になるケースにも対応しています。たとえば、後述する原発性免疫不全症の専門医と臨床医をつなぐ医療ネットワークの構築では、医師の診断や専門家同士のやり取りの順序制御も含めた「データフロー制御機能【28】」が使われています。また、ラボ内でデータと人的活動の連携を制御する「ラボラトリーオートメーション【29】」の実現にも理研サイネスは有効です。さらに、理研サイネスでは「解析ツール拡張機能【23】」により、各種データの解析に必要な処理プログラムを追加することで、システム拡張を柔軟に行うことができます。例えば、上述の巡回ロボットは、理研サイネスの拡張用インタフェースを介してデータにアクセスする拡張プログラムとして実装しています。また、オミックスデータでは統計処理プログラムによる自動解析やゲノムブラウザなど、データの種類に応じた拡張プログラムに対応付けることも可能です。これにより、データの種類に応じた「データ可視化機能【25】」を理研サイネスが提供します。
最近では、パブリケーションに伴ってデータベースを公開するケースが増えていますが、一般的にそれらすべてのデータベースにその後も継続的なメンテナンスの予算が投入されるとは限りません、従来のように各データベースを個別のシステムで運用する方式だと、データベースのメンテナンスが途絶えて運用が止まり、データの利用ができなくなるケースが増えて問題となっていました。これに対し、理研サイネスでは多数のデータベースを一つのシステム内に包含して全体として運用するため、各データベースへのアクセスが不能になる事態を避けることが可能で、コストパフォーマンスの面からも非常に効率的です。また、上述の巡回ロボットがコンテンツの自動更新を行うため、人的な更新が途絶えてしまったデータベースXに対しても自動更新が継続できます。例えば、新しいデータベースNが追加された際に、そのデータベースNの新しいコンテンツから上記データベースXのコンテンツにリンクを追加すれれば、「自動更新機能【30】」によってデータベースXのコンテンツの中にもデータベースNの情報が自動かつ統合的に更新するため、「データベース自動統合更新機能【32】」が実現できます。
最近ではWikiを使った国際的なコンテンツづくりが流行していますが、Wikiは人間が読むための文書を書き込みやすい半面、コンピュータによるデータの再利用が難しい欠点があります。セマンティックウェブはこの欠点を補うものではある反面、人間には理解しにくくなるという欠点があります。そこで理研サイネスでは、セマンティックウェブ上にWikiで編集可能なファイルを位置づけることで、「Wiki機能【18】」の長所とセマンティックウェブの長所を両立させています。
理研サイネスは研究者間で国際的な共同作業を行いながら、多様なデータベースを共同構築し、セマンティックウェブおよびワールドワイドウェブの両方の形式でデータ公開できる情報基盤です。これを使って理研では、マウスやシロイヌナズナなどモデル動植物の遺伝子に医学文献(Medline)を対応付ける作業を国際的な連携で人手により進めてきました。遺伝子名はシンボル名などの略語があり、文献との対応付けは単なる文字列比較だとうまくいかないため、理研サイネスが提供する「文書タグ付けルール設定機能【16】」を使って各遺伝子のタグ付けルールをデータ編集の専門家が人手で丹念に作成してきたことで、今後は、新しい文献が追加されても、そのタグ付けルールが自動適用されるため信頼性の高いタグ付けデータを「自動文書タグ付け機能【17】」で更新していくことができるようになっています。また、これらのデータを有効に活用するためにサイネスでは「推論検索機能【33】」を提供することで、セマンティックウェブの長所を最大限に生かすことができます。理研BASEでは上記の対応付けデータを対象にした「推論検索エンジンGRASE【34】」を既に開発し、Positional Medline(PosMed)という名称の検索サイトをインターネット上に公開しています。
多くの利用が見込まれるにつれ、データに対する安全対策も必要になっており、理研では、横浜研究所(神奈川県)と和光研究所(埼玉県)の間でデータストレージを二重化させるなどの「災害対策【40】」を行っています。
現在、文部科学省の委託研究開発事業である統合データベースプロジェクトを、理研ではサイネスの情報基盤で実施しており、植物オミックスデータベースおよびタンパク質結晶化実験データベースを、国際標準であるセマンティックウェブ形式で理研サイネスから公開する予定です。セマンティックウェブでは、各データの意味や関係性をコンピュータが自動解釈可能な形式で表現するものであるため、これらの膨大なデータベースを人間が単に閲覧するためでなく、コンピュータでさまざまな角度から自動解析を試みることができるようになると期待できます。
また、サイネスは遠隔地に分散したライフサイエンス研究者たちを結びつける情報基盤として、今後は個別化医療の分野における情報連携基盤としての利用に期待を寄せています。例えば、理研免疫・アレルギー科学総合研究センターの小原収グループディレクターらは、日本における原発性免疫不全症の専門医と臨床医をつなぐネットワーク構築にこれまで成功してきており、今後はこのネットワークをさらにアジア全体に広げ、さまざまな免疫疾患研究にオミックス的アプローチを応用していくための日英両言語対応版情報インフラを理研サイネスで推進する計画です。また、理研が構築を進めている「スーパーコンピュータとの連携【38】」や、インターネットを介した「さまざまなウェブサービス機能【39】」としてのアクセス、さらに「塩基配列または化合物構造のようなキーワード以外の検索【36】」にも対応できるよう今後拡張を行っていきます。
ライフサイエンスでは、計測手法の技術革新が目覚ましく、新しいタイプの測定データが次々と得られるため、多様化するデータタイプを効率的に扱うために、理研サイネスのような情報基盤に多くの研究者が依存するようになると予想され、新しいバイオインフォマティクス手法の研究と開発【2】を推進する一方で、その基盤を安定的に提供するための安定した運用【37】や、そのためのサポートスタッフ【41】も強化していく予定です。