| 2. |
研究手法と成果 |
この研究では、トランスクリプトーム解析のために理研とFANTOMコンソーシアムが独自に開発した4種類の新技術を使いました。研究グループが先に開発した技術は完全長cDNAクローニング法であり、それは完全なmRNA配列をcDNAの形で写し取る技術です。この方法によって、理研は257種以上の組織から単離した総数2,000,000個以上の完全長cDNAを、その末端配列から分類わけしたのち、103,000個のマウス完全長cDNAの配列を決定しました。さらに3つの技術全ては、RNA配列の先頭である5'端※16(CAGE、GIS/GSC)と末尾である3'端※16(GIS/GSC)の収集およびマッピングを高速かつ大量に行うものです。この技術を使ってマウスの11,567,973個、ヒトの5,992,395個のCAGEタグ情報と、マウスの2,465,449個のGIS/GSCタグ情報をそれぞれ得ました。
このような大規模データをゲノム上にマッピングし解析を行った結果、同一の遺伝子から、複数の転写を制御するプロモーター(転開始点)、選択的スプライシング※17、複数のPolyA付加サイト※18(3'端:RNA末尾)など、多様なRNAが生産されることが判明しました。また約2,000,000個のマウス完全長cDNAを詳しく分類し、44,147種類の遺伝子(Transcriptional Unit: TU※19)を発見しました。これは、ゲノムの70%に相当する広大な領域が、一旦はRNAに読まれていることがわかりました。さらにこれらのTUの半分以上が、タンパク質をコードしていないRNA(ncRNA)が23,218個あることが明らかとなりました。それらのエクソン※20領域は種間(ヒト−マウス)で保存されていないにもかかわらず、プロモーターの配列が保存されていたことは特筆するべき事実です。このことは、後述するように、ncRNAでは、センス/アンチセンス(S/AS)による2重鎖RNAを介したメカニズムが機能しているのではないかと推察され、エクソンの配列よりも、いつどこで発現※21するのかということが重要であることを示唆しています。
これらのデータは、哺乳類の分化や発生での転写制御の比較分析のための網羅的基盤となります。今回、新規マウス完全長cDNA配列のうち、16,247個のマウスの新しいタンパクコード転写産物を同定しましたが、そのうち5,154個の転写産物は、既知のタンパク質とは全く異なる新規タンパク質をコードしていました。
ゲノム上で双方の鎖がRNAに転写されているようなDNAの領域、つまり、双方のRNAがペアを作ることが非常に多く見られ、31,422個のセンス/アンチセンス(S/AS)のペアを発見しました。このS/ASのRNAペアはゲノムのほとんど全領域で普遍的に起こりうるということを示唆しており、細胞周期、タンパク質輸送、細胞死、細胞構造と接着、細胞分化、リン酸化酵素、インターロイキン、Rasタンパク質、ユビキチン化などの機能を持っている遺伝子によく見られます。この中には、重要なヒトの疾患原因遺伝子も含まれており、新たな薬剤の標的になりえることが考えられます。さらに、これらをノックアウトや強発現による手法を活用し、より詳細に解析するとS/ASによる制御は通常のRNAi※22現象で単純に説明できるものではないことが明らかになりました。この研究で、アンチセンスRNAにより、センスRNAの発現がコントロールされていることがわかりました。このことは、アンチセンス転写は哺乳動物の転写制御に大きな役割を担っており、それらのメカニズムにncRNAが一役かっている事実は、非常に面白い結果です。
|
| ※1 |
FANTOM |
| 理研が中心となって結成された哺乳動物(マウス)の遺伝子を網羅的に機能注釈することを主眼とする国際的研究コンソーシアム共同集団の略称です。オーストラリア、シンガポール、スウェーデン、南アフリカ、イタリア、ドイツ、ギリシャ、スイス、英国、米国などを含む全世界の11ヶ国/45ヶ所の研究機関等が参加しています。 |
|
| ※2 |
トランスクリプトーム |
| RNA合成酵素によってゲノム情報から写し取られた転写物集団。狭義な旧来のセントラルドグマの定義では、mRNAを主要なものとして考え、それ以外をジャンク(不要物)としていました。 |
|
| ※3 |
ncRNA |
| 非タンパクコードRNA(Non-coding RNA)のことで、このRNAからはタンパク質は翻訳されません。 |
|
| ※4 |
プロモーター |
| 転写開始を促す活性を持つDNA上の特定の領域・塩基配列をいいます。 |
|
| ※5 |
転写 |
| 遺伝子DNAからRNAが読み取られることです。 |
|
| ※6 |
センス |
| 遺伝情報としてタンパク質に合成される配列の方向性です。 |
|
| ※7 |
アンチセンス |
| センス配列に対して相補的で逆の方向性です。 |
|
| ※8 |
RNAペア |
| 同一ゲノム上のセンスとアンチセンスの両方向の転写RNAが、相補的に結合した複合物の状態です。 |
|
| ※9 |
RNA新大陸 |
| この研究で新たに提案された遺伝子の定義により、評価し直されたncRNAなどの多様な細胞内RNA集団の莫大な可能性を示す比喩的表現です。 |
|
| ※10 |
国際ヒトゲノムコンソーシアム |
| ヒトの全ゲノム配列を解読することを目的とした研究機関の国際的な共同集団のことです。 |
|
| ※11 |
翻訳 |
| 転写されたmRNA情報をもとにリボゾームで行われるタンパク質合成を意味します。 |
|
| ※12 |
完全長cDNA |
| cDNAは相補DNAのこと。分解し易いmRNAの情報を保存するため人為的に逆転写酵素を使って合成されます。先頭のキャップ構造から末尾のpolyA付加まで備えた成熟mRNAを鋳型として合成された完全なcDNAのことです。 |
|
| ※13 |
AGE (Cap Analysis of Gene Expression) |
| 耐熱性逆転写酵素やcap-trapper法を組み合わせて転写物の5'末端から20塩基のタグ配列を切り出し、塩基配列を決定する実験技法です。 |
|
| ※14 |
GSC (Gene Signature Cloning) |
| 次のGISと同様に転写物の5'末端と3'末端の塩基配列同定する大量処理技術ですが、微量なmRNAからも検出できます。 |
|
| ※15 |
|
| 転写物の5'末端と3'末端の塩基配列同定する大量処理技術のことで、転写物の変動性を知ることが出来ます。 |
|
| ※16 |
5'端、3'端 |
| 核酸合成は、構成単位のヌクレオチド分子内の五単糖の炭素の位置で考えると5'から3'方向へ進むので、鎖の5'端が先頭になり、3'端が末尾となります。 |
|
| ※17 |
選択的スプライシング |
| 真核生物のDNAから転写されたmRNA前駆体が成熟mRNAになるためにイントロン部分だけが選択に切り出される過程をスプライシングと呼びますが,イントロンが複数存在するとき,異なったパターンのスプライシングが起こり,除去されるイントロンが異なる成熟mRNAが産生されることを選択的スプライシングと呼びます。 |
|
| ※18 |
PolyA付加サイト |
| アデニル酸が200から300塩基重合する成熟mRNAが3’端末尾にもつ特異的配列部位のことです。PolyA RNAは実際上mRNA識別の指標となり、Non(非)-polyA RNAは、この研究がなされるまでは、完全なmRNAが分解された無意味なものと考えられてきました。 |
|
| ※19 |
Transcriptional Unit (TU) |
| ゲノムDNA上で同一鎖上にあり、エクソン1bp 以上overlapがある transcriptをグループ化した際のエクソン領域の集合を意味します。 |
|
| ※20 |
エクソン |
| mRNAの塩基配列をコードするDNAの構造配列。エクソン間に挟まれた非コード領域をイントロン呼びます。 |
|
| ※21 |
発現 |
| 遺伝子がその表現形質をあらわすこと。分子生物学の文脈では、遺伝子DNA情報が転写されること、またはさらに翻訳までいくことを示します。 |
|
| ※22 |
RNAi |
| RNA interference (RNA干渉)の略で、二本鎖RNAによるタンパク質翻訳の選択的阻害現象をこう呼びます。 |
|
| ※23 |
タンパクコード遺伝子 |
| 開始コドンと終止コドンを両方持ったmRNAを合成できる情報をもつDNA配列。実際にはプロモーターが必要になります。 |
|
| ※24 |
リボゾームRNA |
| タンパク質と共に細胞内小器官(オルガネラ)であるリボゾームを構成するRNAの一種です。 |
|
| ※25 |
トランスファーRNA |
| 翻訳において、アミノ酸を運搬する機能をもつRNAの一種です。 |
|
| ※26 |
タイリングアレイtiling array |
| 塩基配列を検出用プローブとしてシリコン基盤上に搭載したDNAチップです。ゲノムデータから等間隔に抜き出した配列を使えば、DNAの配列の違いを超高速で検出できます。 |