蛋白質言語モデルの内部を解明する新手法が開発——MITがブラックボックスの透明化に成功
マサチューセッツ工科大学(MIT)の研究チームが、タンパク質言語モデルの内部メカニズムを解明する画期的な手法を発表した。タンパク質言語モデルは、大規模言語モデル(LLM)をベースにしたAIで、タンパク質の構造や機能を予測するのに活用されており、新薬やワクチンのターゲットを特定する上で重要な役割を果たしている。しかし、これらのモデルは「ブラックボックス」として、どのように予測しているのか、どのタンパク質の特徴に注目しているのかが不明だった。 今回、MITのボニー・ベルジャー教授(計算生物学グループ長)と大学院生オンカー・グジャラ氏らは、スパース自己符号化器(sparse autoencoder)という新技術を用いて、モデルの内部表現を可視化。従来の480ノード程度の表現を2万ノードに拡張し、情報が「疎」に分布するようにすることで、各ノードが特定の生物学的特徴を表すようにした。これにより、タンパク質の機能、タンパク質ファミリー、細胞内位置、代謝プロセスなど、具体的な生物学的特徴とノードの活性が対応づけられるようになった。 さらに、AIアシスタント「Claude」を活用して、数千ものタンパク質の表現を分析。その結果、あるノードが「細胞膜に存在するイオンやアミノ酸の膜透過輸送に関与するタンパク質」を検出しているなど、人間の言語で説明可能な意味を持つ特徴が明らかになった。 この手法により、モデルの予測根拠が理解できるようになり、研究者は適切なモデルの選定や入力データの最適化が可能になる。また、モデルが「学習」している特徴から、生物学的に未知の知見が得られる可能性も示唆された。グジャラ氏は「モデルがさらに強力になると、AIの内部を覗くことで、これまで知られていなかった生物学的知見が得られるかもしれない」と述べている。 研究は国立衛生研究所(NIH)の支援を受けて実施され、論文は『Proceedings of the National Academy of Sciences』に掲載された。この進展は、AIを活用した生命科学の研究をより透明で信頼できるものにし、未来の医薬開発に大きな影響を与えると期待されている。