要旨
独立行政法人理化学研究所(野依良治理事長)は、微生物由来タンパク質のX線結晶構造解析実験データを主体にした、生命科学研究に役立つタンパク質実験データベースをウェブ上で公開します。理研放射光科学総合研究センター(石川哲也センター長)タンパク質結晶構造解析研究グループの淺田征彦リサーチアソシエイトおよび国島直樹グループ副ディレクターらによる研究成果です。本データベースは、理研生命情報基盤研究部門(豊田哲郎部門長)の公開基盤「理研サイネス※1」上で7月23日からダウンロードが可能となります。
生命現象を原子レベルで理解し、医学・産業応用につなげるために、X線結晶構造解析などによりタンパク質の立体構造を決定することは必要不可欠です。近年、世界中で行われている構造ゲノムプロジェクト※2推進の結果、生命科学研究者が手軽にタンパク質のX線結晶構造解析を実施できる研究基盤が整備されてきました。研究グループは、構造ゲノムプロジェクトの成果を社会還元する試みとして、大型放射光施設SPring-8※3の高輝度X線を利用して集積した、微生物由来タンパク質、変異体タンパク質※4、重原子標識タンパク質という3つの、系統的で詳細な結晶構造解析実験データベース(データサイズ5.0TB=5×1012B、ファイル数9700万)を公開します。
目的タンパク質の結晶構造を得るためには、試料調製から始まり、結晶化、X線回折実験を経て、計算による構造決定に至る一連の作業が必要で、各段階の作業から膨大な実験データが発生します。微生物由来タンパク質の結晶構造解析実験データベースでは、これらの実験データを研究のために自分で再編集して利用することが可能な形で一挙公開し、タンパク質の効率的な構造決定のためのソフトウェア開発などを促進します。また、生命科学者のタンパク質研究を、このデータベースに登録された世界最大規模の類似タンパク質情報により支援します。
変異体タンパク質の結晶構造解析実験データベースでは、研究グループがタンパク質結晶構造解析の方法論開発のために行った、多数の変異体タンパク質に関する実験データを公開します。これらの変異体タンパク質は、均一な条件で結晶化されるなど、相互比較を行う上で国内外に例のない有利な特長があります。このため、これらの実験データを再利用可能な形で公開することが、バイオインフォマティクス※5分野での活用を加速し、創薬などへの貢献につながります。
タンパク質結晶構造解析では、白金などの重原子を含む試薬で標識したタンパク質結晶の作製が必要な場合があります。研究グループは、生命科学者へのタンパク質結晶構造解析のさらなる普及のため、目的タンパク質のアミノ酸配列や溶液条件に基づいて最適な重原子試薬が簡単にウェブ検索できる、当分野で世界最大のソフトウェア「HATODAS」を開発しました。重原子標識タンパク質の結晶構造解析実験データベースでは、HATODASの検索基盤データを再利用可能な形で公開することにより、タンパク質工学※6分野などへの応用を促進します。
本公開事業は、文部科学省「統合データベースプロジェクト※7」の一環として実施しました。
背景
世界中で行われている構造ゲノムプロジェクトにより、膨大な数のタンパク質立体構造が決定されてきました。理研放射光科学総合研究センターは文部科学省「タンパク3000プロジェクト(2002年度~2006年度)」に参画し、タンパク質結晶構造解析研究グループと放射光システム生物学研究グループ(倉光成紀グループディレクター)が中心となって、主に微生物由来タンパク質の結晶構造をSPring-8の世界最高輝度を誇るX線を用いて集中的に決定してきました。特に、高度好熱菌Thermus thermophilus HB8※8では、約2,200種の全構成タンパク質のうち国内外の成果を含めて約2割まで立体構造決定が進み、今やこの菌が最も構造解析の進んだ生物となりました。さらに、タンパク質結晶構造解析研究グループは、結晶化ロボット、構造解析支援ソフトウェア、タンパク質結晶工学技術※9など、効率のよい結晶構造決定のための研究基盤整備を行いました。今回、これらの研究成果を社会還元する試みとして、放射光科学総合研究センターに存在するタンパク3000プロジェクト関連の膨大なタンパク質実験データ(技術開発関連データを含む)を、ウェブ上で公開しました。
公開内容
タンパク質結晶構造解析研究グループは、以下の3種類の結晶構造解析実験データベースを公開しました。
(1)
微生物由来タンパク質
研究対象のタンパク質について実験方針を検討する際に、当該タンパク質と類似しているタンパク質がデータベースに収録されていれば、その類似タンパク質の実験情報が参考になります。特に、T. thermophilus HB8由来タンパク質の場合、必要であれば理研バイオリソースセンターから遺伝子を取り寄せて類似タンパク質を生産し、当該タンパク質と構造や機能を比較検討することが可能となります。
目的タンパク質の結晶構造を得るためには①目的遺伝子の発現、②発現タンパク質試料の精製、③精製試料の結晶化、④タンパク質結晶のX線回折データ収集、⑤回折データに基づく計算による構造決定、という一連の作業が必要で、各段階の作業から膨大な実験データが発生します(図1)。理研の複数の部署は、これらの膨大な実験データを詳細に系統立って保存してきました。しかし、この膨大なデータを公開するにあたって、データの保存形式が部署によって異なっていることや、手入力が主であるためデータ整合性の確認作業が必要なことが問題となっていました。そこで研究グループは、放射光システム生物学研究グループや生命分子システム基盤研究領域(横山茂之領域長)の協力を得て、放射光科学総合研究センターに存在する構造解析実験データを1年半かけて編集・確認し、1つのデータベースに統一する作業を行いました。
今回、微生物由来タンパク質にかかわる試料調製(発現プラスミド構築実験10,000件、培養実験5,000件、精製実験3,000件)、結晶化実験データ(結晶化条件90万件、観察画像1,000万件)と回折実験データ(200件)を公開し、類似タンパク質の構造決定などを支援していきます。
(2)
変異体タンパク質
研究グループは、変異導入によりタンパク質の安定性、結晶性、重原子との結合しやすさを改善する新しい方法を開発する目的で、2種類のモデルタンパク質を用い、多数の変異導入実験とその変異体の結晶構造解析を行ってきました。モデルタンパク質として用いたのは、研究グループが立体構造を決定した高度好熱菌T. thermophilus HB8由来TTHB049と超好熱古細菌Pyrococcus horikoshii OT3※10由来PH0725です。
TTHB049は、177アミノ酸残基の小さな単量体タンパク質で、大量の試料を安定して調製できる利点があります。また、熱変性の温度が79.2℃と、T. thermophilus由来タンパク質としては低いので、変異導入により目的タンパク質の安定性がどのように影響を受けるかを調べるのに格好の材料といえます。また、もう1つのモデルタンパク質であるPH0725は、265アミノ酸残基の単量体が2つ会合した二量体で、タンパク質として中程度の大きさを持ちます。野生型由来のPH0725結晶のX線回折で得られる分解能も、2.1Å(1Åは100億分の1m)と改善の余地を残す中程度の精度でした。さらに、大量の試料を安定して調製でき、変異導入によって容易に結晶型が変化しないため、変異導入によりどのように結晶の質が影響を受けるかを調べるのに適しています。このPH0725を用いた一連の変異導入実験により、研究グループは、タンパク質結晶の品質が変異導入によって改善可能であることを示しました(図2)。
今回、これら2種類のモデルタンパク質について、変異体の結晶構造解析に関する実験データ150件を公開し、タンパク質設計などを支援します。変異体タンパク質の構造解析は、専用の規格化した手順で行われているため、ほかの微生物由来タンパク質と比較して、より均一で詳細な実験データとして提供ができます。
(3)
重原子標識タンパク質
研究グループは、タンパク質構造解析支援ソフトウェアの1つとして、重原子データベース「HATODAS」を日立ソフトウェアエンジニアリング株式会社と共同で開発しました(図3)。目的タンパク質の結晶構造を決定するために、白金や水銀などの重原子を含む試薬で標識したタンパク質結晶を作製する場合があります。その場合、どの重原子試薬が適しているかを実験的なスクリーニングで検討する必要があり、解析経験のない研究者には気軽に取り組みづらいものでした。HATODASは、既知の重原子標識タンパク質をデータベース化することにより、使用すべき重原子試薬が簡単に検索できるようにすることを目的としたシステムで、統合データベースプロジェクトに参画する以前から、ウェブ上で公開していました。HATODASに目的タンパク質のアミノ酸配列を入力すると、標識物質として使える可能性の高い重原子試薬を出力します。さらに、溶液条件を入力することで、最適な重原子試薬の絞り込みができます。
今回、これら重原子標識タンパク質に関する実験データ500件を、統合データベースの一部として、再利用(研究のための再編集)や一括ダウンロードが容易な形にして提供し、タンパク質工学分野の新たな方法論開発などを促進します。
今後の期待
公開する3種類のデータベース各々への今後の期待は、以下のとおりです。
1つ目の微生物由来タンパク質の実験データベースでは、結晶構造解析の膨大な実験データが詳細かつ系統的に整理されています。従って、本実験データの傾向分析などに基づき、タンパク質の効率的な構造決定のためのソフトウェアなどを開発することが可能です。さらに、例えば代表的なベンチマークセット(評価基準データ)として採用されるなど、生命科学分野において多様なデータを比較検討するための基準となる情報基盤として、広範な社会貢献が期待されます。2つ目の変異体タンパク質の実験データベースは、ホモロジーモデリング※11の高精度化などに活用できます。現在のホモロジーモデリング技術では、例えば、ヒト由来タンパク質の立体構造を微生物由来類似タンパク質の既知立体構造から高精度で予測し、創薬につなげることは非常に困難です。本データベースでは、すでに変異体の系統立った詳細な立体構造を提供しているため、解答に合うようにアルゴリズムを改良することが可能です。こうして得た高精度ホモロジーモデリング技術は、類似タンパク質の立体構造予測に大きな威力を発揮すると期待できます。3つ目の重原子標識タンパク質の実験データベースでは、タンパク質工学分野への展開が注目されます。研究グループはこれまでに、重原子を結合するモチーフ配列を多数見つけています(図3)。従って、これらのモチーフをタンパク質工学的に目的タンパク質に導入することで、計画的に重原子標識をすることが可能となり、さまざまな応用が期待できます。
今回のタンパク質実験データベースは、理研生命情報基盤研究部門が開発している公開基盤「理研サイネス」から公開しました(図4)。この公開基盤上では、各データベースがセマンティックウェブと呼ばれる国際標準形式で再構築されています。この形式の最大の特長として、各データ間の関係について意味付けがなされているため、データの再利用や自動処理化が容易なことが挙げられます。また、今回公開した3種類のデータベースは、どれも、未加工の実験データまでさかのぼって利用できるという特長を持っています。従って、データベースを一括ダウンロードし、ほかのデータと組み合わせるなどして新たなデータベースを構築することが可能になり、大規模で予想外の展開が期待できることになります。今後は、今回公開したデータについて国際的な合意を得ながら、生命科学者が利用しやすいように、さらに整備を進めていく予定です。2010年度末までに、統合データベースの一部として生命科学分野の幅広い研究者に役立つ体制を確立していきます。