要旨
独立行政法人理化学研究所(野依良治理事長)は、次世代シーケンサー(超高速塩基配列解読装置)で得られた断片化RNA※1の情報から、細胞内に本来存在している全長RNA※1の情報を高精度に再構築する解析プログラム「ARTADE2(アートエイド ツー)」を開発しました。これは、理研生命情報基盤研究部門(理研BASE)の豊田哲郎部門長らによる研究成果で、「ARTADE2」のアプリケーションは理研BASEのwebページに掲載、2012年2月13日からダウンロードできます。
細胞内に存在するRNAのセット「トランスクリプトーム※2」は、細胞の機能を決定付ける重要な要素です。トランスクリプトームを正確に捉えることは、疾患を未然に防ぐ先制医療やバイオマス資源開発など、生命・環境科学分野でのさまざまな応用展開に有効です。近年の次世代シーケンサーの発展は、トランスクリプトームの観察に飛躍的な大規模化・効率化をもたらしましたが、入手できるRNA分子の塩基配列情報は、100塩基程度という短い断片化RNAに限られていました。そのため、断片化RNAの配列情報を正確に再構築し全長RNAの情報を得るための処理が必要であり、これを高い精度で実現する手法やソフトウェアなどの開発が求められていました。
理研BASEは、複数のサンプルから取得したmRNA-seq※3データを用いて、ゲノム上での転写活性の相関関係を解析する「ポジショナル相関解析法※4」を考案し、それを実行するプログラム「ARTADE2」を開発しました。実際にRNA構造が既知であるシロイヌナズナでARTADE2の精度を検証した結果、全長RNAの塩基配列情報の再構築を92.6%という高い成功率で実現しました。さらにこの手法を応用し、サンプル間のRNA分子の配列変化の検出や定量化にも成功しました。ARTADE2は、複数サンプルでの転写の相関情報を利用するため、サンプル数が増加していくにつれ、解析精度がより向上していきます。このため、近年急速に進んでいる次世代シーケンサーが生産するデータの蓄積を最大限に活用できる解析手法です。
本手法の応用として、健常者と疾患者のトランスクリプトームを比較した分子マーカーの同定による先制医療への貢献や、さまざまな植物のトランスクリプトームやその動態解析によるバイオマス資源開発などが計画されています。
本研究成果は、文部科学省 革新的細胞解析研究プログラム(セルイノベーション)、科学技術振興機構 統合化推進プログラムの助成を得て行われ、英国の科学雑誌『Bioinformatics』オンライン版(2月13日付け)に掲載される予定です。
背景
細胞内に存在するRNAは、細胞だけでなく生体全体の機能に大きな影響を及ぼします。RNAの状態は疾患との関連も深く、がんなどの疾患では特徴的なRNAの発現パターンや選択的スプライシング※5が生じることが知られています。また、この変化は疾患に先駆けて生じると考えられており、疾患の予兆となるような変化を探すことで疾患を未然に防ぐ「先制医療」へとつなげていくことが期待されています。
近年、次世代シーケンサーで細胞内のmRNAの状況を調べる手法「mRNA-seq」という手法が広く利用されています。次世代シーケンサーによるデータ生産量は年々増加しており、1回の実験で6,000億塩基(Illumina社Hiseq2000の場合)で、これはヒトゲノムDNAの200倍の量に相当します。一方、mRNAの長さはさまざまで、ヒトの場合、1,000塩基を超えるものがRNA全種類のうち80%以上を占めます。しかし、mRNA-seqでは、100塩基程度までの短い断片の情報しか読み取ることができません。このためRNAの状況を知るには、次世代シーケンサーで不完全に読み取られた断片化RNAの情報から完全な全長RNAの情報を再構築する処理が必要です。細胞内のmRNAの状態が転写やスプライシングの制御によって多様に変化することや、シーケンスの際に生じるノイズや偏りの存在がこの処理を困難にしていました。そこで、全長RNAの情報を高精度に再構築するためのプログラムが必要とされていました。
研究手法と成果
従来のソフトウェアは、一つのmRNA-seqデータだけを用いて処理しているため、データによるノイズや偏りの影響を大きく受けていました。理研BASEが開発した「ARTADE2」では、さまざまな生体組織や環境条件下で採取したRNAから複数のmRNA-seqデータを取得・統合して解析します。これによりノイズや偏りの影響の問題を解決しました。具体的には、同一のゲノムにおける異なる2点間のRNA発現活性の相関を調べる「ポジショナル相関解析」を網羅的に計算し、ゲノム配列情報と合わせて統合的に解析することで、全長RNAの情報を高い精度で再構築することに成功しました(図1)。
ARTADE2の性能を評価するため、理研植物科学研究センター(篠崎一雄センター長)の協力の下、シロイヌナズナから取得したRNAを用いてmRNA-seqを行い、このデータに対してARTADE2を適用しました。その結果、予測したRNA全長構造の92.6%を、既知のRNA構造に対して正しく再構築することに成功しました。この結果は、従来よく利用されている既存ソフトウェア(Cufflinks(カフリンクス):米メリーランド大学が開発)の78.6%を上回る結果となりました(図2)。
また、トランスクリプトーム解析に用いられるゲノムタイリングアレイ※6の結果にも、シロイヌナズナのデータに対してARTADE2を適用しました。その結果、1,000個以上の新規遺伝子やアンチセンスRNA※7を新たに発見しました。これは、ゲノム配列の意味、意義の正確な理解を、一層すすめていくことにつながります。
さらに、ポジショナル相関解析に多変量解析の1つである因子分析手法を組み合わせることで、転写開始点の変化や選択的スプライシングによって生じるRNAの塩基配列の変化を同定し、それぞれのサンプルにおける変化を定量化する解析手法も開発しました(図3)。この変化は、そこから翻訳されるタンパク質の配列やタンパク質への翻訳効率に変化をもたらします。また、RNA分子そのものが機能分子として振る舞う例も多く知られているため、トランスクリプトームの変化は、ゲノムの情報と細胞の表現形質をつなぐ重要な要素です。ARTADE2はゲノム、トランスクリプトーム、プロテオーム(細胞中のタンパク質全体)、フェノーム(細胞・個体の持つ表現形質の総体)という複数階層のオミックス研究を仲介する重要な技術となります。
ARTADE2は、複数のサンプルから得られたトランスクリプトームのデータからゲノム上の位置関係で転写活性の相関性を解析するため、サンプル数が増えるほどデータのノイズや偏りに対して頑強になり、解析精度が向上します。従って、近年急速に蓄積が進む次世代シーケンサーデータを有効活用することが可能です。
今後の期待
今後、ARTADE2を用いて、健常者と疾患者のRNAデータを比較・解析することにより疾患の分子メカニズムの解明につながると期待されます。また、ARTADE2で疾患の予兆となるようなRNAの変化を探し、これを分子マーカーとして用いることで疾患を発見できる可能性があります。これは疾患を未然に防ぐ「先制医療」へとつながります。
また、バイオ燃料やバイオプラスチックなどのバイオマス資源開発を目指すグリーンイノベーションでは、植物細胞内のRNAの構造や動態の理解は重要です。植物は多様性に富み、目的とするバイオマスによって利用に適した植物が異なります。研究対象となることの少ない非モデル植物ではトランスクリプトームの解析は困難ですが、ARTADE2を用いることで効率的かつ正確にトランスクリプトームの構造やRNAの動態を捉えることが可能になり、グリーンイノベーションへの貢献が期待できます。