要旨
独立行政法人理化学研究所(野依良治理事長)は、次世代シークエンサー(DNA解析装置)※1を用いて日本人1人の全ゲノムのDNA塩基配列(シークエンス)データを初めて包括的に解析しました。理研ゲノム医科学研究センター(鎌谷直之センター長)情報解析研究チームの藤本明洋特別研究員、角田達彦チームリーダー、バイオマーカー探索・開発チームの中川英刀チームリーダーらによる成果です。
現在、塩基配列の違いにより発症リスクが異なる病気の解明に向けて、ゲノムワイド関連解析※2が爆発的に行われていますが、それに続く次世代の方法として、ヒトの全ゲノム配列(約30億塩基対)を解析する方法「全ゲノムシークエンス解析」が期待されています。しかし、いまだに精度良く解析する方法が確立していない上、日本人についてはまだ報告がありませんでした。研究グループは今回、次世代シークエンサーを使って、日本人男性1人の全ゲノム配列の高精度な解析を達成しました。取得した全ゲノムシークエンスデータの99%以上は、ヒトゲノムプロジェクト※3で決定された参照配列にマップできました。このデータにベイズ決定法※4という数学的手法を適用し、約313万個の一塩基多様性※5を約99.9%の高精度で検出しました。そして、海外の別々の研究グループから報告されている欧米人、アフリカ人、中国人、韓国人の6人の全ゲノム配列と日本人の全ゲノム配列を比較し、集団では見失われていた、遺伝子の機能に影響を与える一塩基多様性が個人個人には多いことを発見しました。また、高精度な方法で1万塩基対より小さい欠失を約5,300個検出し、コピー数の多様性※5や構造の多様性※5も網羅的に見いだしました。さらに、ヒトゲノム参照配列にない約300万塩基対の新規配列を発見し、これらの配列がヒトゲノムの多様性を反映する可能性を見いだしました。一連の解析で、ヒトゲノムには未発掘の多様性に富んだDNA塩基配列が数多く存在し、全ゲノムシークエンス解析は、それらを完全に理解するために極めて重要なアプローチであることが分かりました。今後、このような方法で日本人固有の多様性を検出することによって、日本人のための病気の研究への展開が期待できます。
本研究成果は、米国の科学雑誌『Nature Genetics』オンライン版(10月24日付け:日本時間10月25日)に掲載されます。
背景
理研ゲノム医科学研究センターは、2002年から世界に先駆けてゲノムワイド関連解析という方法を確立し、さまざまな病気にかかわる遺伝子を明らかにしてきました。また、国際ハップマッププロジェクト※6に参画し、その成果を基に、病気にかかわる遺伝子を探索するための一塩基多型(SNP)の効率的なセットも整備しました。このような遺伝子多型解析技術の進展によって、ゲノムワイド関連解析を用いた病気にかかわる遺伝子の解明などが、今や全世界で劇的な展開を見せています。しかし、この方法は、集団内で多くの人が持つ「多型」に着目したもので、より頻度の低い「多様性」まではカバーしきれていません。頻度の低い多様性を探索する現時点で唯一の方法は、ヒトの全ゲノム配列(約30億塩基対)を解析する方法「全ゲノムシークエンス解析」です。特に、この数年で爆発的に解析能力が向上してきている次世代シークエンサー(DNA解析装置)を活用した超並列シークエンス技術が最も強力で、余すことなくDNA塩基配列を解析できる方法となっており、将来のオーダーメイド医療にも有用であると期待されています。次世代シークエンサーによる全ゲノムシークエンス解析を行った海外の先行研究から、一塩基多様性、コピー数の多様性、挿入/欠失、転座などの構造の多様性に関する情報が豊富に得られることが分かってきました。しかし、全ゲノムシークエンス解析による多様性検出の精度は、実験手法固有のエラー、マッピングエラー、ヒトゲノムプロジェクトで決定された参照ゲノム配列との集団としての違い、検出アルゴリズムの違いなどによって影響を受け、次世代シークエンサーを活用した高精度な方法はいまだ確立しているとはいえません。これらの課題を克服するためには、シークエンス技術の改良とともに、より洗練された情報科学的アプローチが必要となっています。また、日本人の全ゲノム配列の包括的解析も進んでおらず、固有の配列や多様性があるのか無いのか、どのような描像なのかなども、不明なままでした。
研究手法と成果
研究グループは、米国・イルミナ社のGenome Analyzer IIという次世代シークエンサーを活用し、国際ハップマッププロジェクトで解析された日本人男性1人のDNAから、全部で約1,200億塩基対(精度を良くするために各塩基対につき約40回分)のデータを得ました。その99%以上が、米国立生物工学情報センター(NCBI)に登録されているヒトゲノム参照配列(約30億塩基対)にマップすることができました。
一塩基多様性の検出のため、いくつかの数学的手法を比較し、最終的に成績の良かったベイズ決定法を用いることにしました。ベイズ決定法によって検出した一塩基多様性のうち、既知の一塩基多型(SNP)と重なるものは、その約99.9%で遺伝子型が合致し、この方法が高精度であることを確かめました。この方法で見つけた3,132,608個のSNPのうち、12.6%の395,940個は既知のデータベースに無く、新規のものでした。また、タンパク質コード領域内で、アミノ酸配列が異なる9,783個の塩基の多様性と、遺伝子機能を喪失する96個の塩基の多様性を見つけました。さらに、217,176個の短い配列の挿入や228,063個の短い配列の欠失を検出しましたが、そのうち487個はタンパク質コード領域内に存在していました。タンパク質コード領域内には、アミノ酸配列を途中から崩す(3文字単位でない)塩基対の挿入/欠失も351個見つかりました。これらの多様性はいずれも、遺伝子の機能に影響を与えている可能性があります。
日本人1人の全ゲノム配列と、海外の複数のグループの先行研究から得られている欧米人、アフリカ人、中国人、韓国人の6人の全ゲノム配列の一塩基多様性のデータを合わせて解析したところ、個人個人には、集団では見失われていたアミノ酸配列が異なる塩基の多様性や遺伝子機能を喪失する塩基の多様性が多いことが分かりました(図1)。この結果から、遺伝子機能に良くない影響を与える一塩基多様性のほとんどが、自然選択のためにまれになるため、これまでの集団内での一塩基多型(SNP)の探索では、大多数のものが見失われてきたことが推測できます。また、遺伝子機能別に分類して解析してみると、遺伝子機能を喪失する塩基の違いは、嗅覚や化学的刺激の認識にかかわるものに多いことが分かりました。
配列の欠失の検出には、各塩基対が読まれた回数(リードの深さ)と、リード対間の距離の両方を情報として用いる高精度な方法を実現しました(図2)。その結果、5,319個の欠失の候補が挙がりました。それらの一部をポリメラーゼ連鎖反応(PCR)法で検証すると、すべて欠失であることが分かりました。この方法を用いると、これまでのアレイ技術では検出が難しい、数百塩基対の小さな欠失を検出することができます。検出した欠失のうち74個が、70個の遺伝子領域(126個のエキソン)と重なることが分かりました。このような欠失は遺伝子の機能に影響を与えている可能性があります。
1万塩基対以上という長い配列のコピー数多様性の検出には、5,000塩基対の範囲内の読まれた回数を用いることにしました。その結果、コピー数が多い領域113個と、コピー数が少ない領域109個を検出しました。それらを別の実験で検証したところ、結果が良く一致することが分かりました。この技術の大きな特徴は、ほかのサンプルと比較することなく、1サンプルだけで検出が可能なことです。また57個の染色体上で配列が逆転する逆位や112個の一部がほかの場所と入れ替わる染色体内転座の候補も見いだしました。
塩基配列の組み立てを行うABySS、SOAPdenovo、Velvetという3種類のソフトウエアを用いて、ヒトゲノム参照配列にマップできなかったデータを組み立てた(アセンブル)結果、それぞれ6,535個、4,826個、6,617個の連続した配列断片(コンティグ)を得ました。この配列断片は新規配列にあたり、3つのソフトウエアが出す結果は、互いによく似ていました。そして配列断片の185個をポリメラーゼ連鎖反応(PCR)法で検証したところ、181個が実際に存在することが分かり、さらに、新規配列の90%以上が、相当する領域を通常のシークエンス解析で決定する検証実験でも、同じ配列が得られることを確認しました。今回の全ゲノムシークエンス解析では、全部で300万から340万の塩基対がヒトゲノム参照配列に無い新規の配列で、ヒトゲノムの多様性を反映するものと考えられます。
今後の期待
一般に、有害な遺伝的多様性は、自然選択のために集団内では抑えられていると考えられますが、個人のゲノム配列上には、病気にかかわるまれな多様性が未発掘のままとなっている可能性があります。全ゲノムシークエンス解析は、そのようなまれな多様性を余すことなく検出する本質的な技術となりえます。全ゲノムシークエンス解析のもう1つの特徴は、ヒトゲノム参照配列にない新規配列を発見できることです。2003年に配列決定が完了したとされているヒトゲノム配列には、未発見の配列や多様性が多く存在すると考えられ、今後数年から5、6年ぐらいの間に、全ゲノムシークエンス解析によってさまざまな病気にかかわる未知の多様性が発見されると予想されます。その結果、オーダーメイド医療がますます進展し、病気の研究に新たな展開をもたらすことが期待されます。また、今回の解析技術を駆使することによって、ゲノムの病気であるがんのゲノム解析を行うICGC (国際がんゲノムコンソーシアム)が進捗し、がんにかかわるゲノム上の包括的情報を解明していくと注目されます。