大規模ゲノムデータがAIで進化する生物学の解明を加速
6月、グーグル・ディープマインドは、遺伝子発現の制御メカニズムを予測する新たなAIモデル「AlphaGenome」を発表した。AlphaFoldがタンパク質の折りたたみに注力するのに対し、AlphaGenomeは遺伝子のオン・オフを制御する「遺伝子変異」の影響を予測する。このモデルの学習には、2010年代にブロード研究所が主導した2つの大規模データベースが基盤となった。一つは「ENCODE」(DNA要素百科事典)で、ゲノム内の100万以上もの調節要素を網羅。もう一つは「GTEx」(遺伝子型−組織発現)プロジェクトで、ヒトおよび霊長類の組織における遺伝子発現パターンを長期にわたってマッピングした。これらは、非コード領域の機能や疾患リスクとの関連を解明する上で不可欠な基盤となり、NIHの「遺伝子変異の機能影響コンソーシアム」や「ヒューマンセルアトラス」、ブロード研究所の「遺伝子調節オブザーバトリ(GRO)」の構築にも寄与した。 ブロード研究所のクリスティン・アードリ氏(GTExディレクター)とブレット・バーナード氏(ENCODE共同ディレクター、GROリーダー)は、これらのデータがAI時代の生物学研究にいかに価値があるかを強調した。アードリ氏は、「10年以上前に作られたデータが、今やAIモデルの発展を支えている。これは、データがコミュニティ共有で、制限なく利用可能であるという設計の成功だ」と語った。バーナード氏も、「AIは遺伝子調節の『言語』を解読する鍵となる。今後は、細胞レベルでの変化や発生過程、疾患の進行といった『摂動』を体系的に捉えるデータが求められる」と指摘。 さらに、AIは遺伝子調節の3次元構造解析や、細胞の発生過程における調節要素の変化を解明するなど、多様な分野で活用されている。アードリ氏は、今後の課題として「発生や疾患といった動的なプロセスを、時間軸に沿って体系的にデータ化する」必要性を挙げた。また、遺伝子検査で見つかる「意味不明な変異」を解釈するためには、AlphaGenomeのようなモデルと、さらなるデータ基盤の整備が不可欠だと強調した。 バーナード氏は、「単一の変異を個別に調べるのか、それともAIが全体のルールを学習する『包括的アプローチ』を採るのか」という議論の深化を期待している。AIが遺伝子の「法則」を解き明かす可能性は、今後のゲノム科学の鍵となる。
