AI 言語モデルが基礎レベルで現実世界を理解し得ることを研究が示唆
ブラウン大学の研究チームは、AI 言語モデルが現実世界の出来事について人間に近い理解を示していることを実証する新しい研究を発表しました。この研究は 4 月 25 日にリオデジャネイロで開催される国際学習表現会議で発表され、arXiv プレビューサーバーにも掲載されました。論文「Is This Just Fantasy?」は、AI モデルが通常のシナリオ、非現実的な事象、不可能な状況、無意味な主張を区別できるかどうかを分析しました。 研究を率いた博士課程のマイケル・レポリ氏によると、言語モデルは現実世界の因果的制約のような何かを内部に格納しており、そのパターンは人間の判断を予測する能力を持っています。チームは、機械学習モデルの内部数学状態を解析するメカニズム解釈性という手法を用いて実験を行いました。これは AI システムの脳内状態を逆-engineering する「AI における神経科学」とも言えるアプローチです。具体的には、人間が一般的・不確実・不可能・無意味と分類する文をモデルに入力し、各カテゴリで生成される数学的ベクトル(数値状態)の違いを比較しました。 GPT-2、Llama 3.2、Gemma 2 などの複数のオープンソースモデルでテストした結果、規模の大きいモデルは各可能性のカテゴリに強く相関する明確な数学的パターンを発達させることが判明しました。これらのベクトルは、不確実性と不可能性のような類似したカテゴリ間でも約 85% の精度で区別することができました。さらに興味深い点は、AI が生成するベクトルが人間の不確実性も反映していることです。例えば「帽子で床を拭く」といった曖昧な文について、人間が 50% が不可能、50% が不確実と意見が分かれる場合、AI モデルも同様に約 50% の確率を割り当てることが確認されました。 この研究は、20 億パラメータ以上の規模を持つモデルから、人間と類似した現実世界の理解が芽生え始めることを示唆しています。これは現在の数兆パラメータ規模のモデルに比べても比較的小さな規模です。研究团队は、この種のメカニズム解釈性研究が AI が何をどのように知っているかを理解し、より賢く信頼性の高いモデルを開発する鍵となると述べています。結果として、現在の AI 言語モデルは単なる統計的な文章生成機ではなく、人間の認知に近い形で現実世界の理解を保持していることが明らかになりました。
