AIの一般知能(AGI)を測る新フレームワーク:現行モデルの認知的ギャップを数値化
人工知能一般(AGI)の明確な定義が欠如しているため、現在の特化型AIと人間レベルの認知能力との間にどれほどのギャップがあるのかが不明瞭である。この問題に対処するために、Dan Hendrycks氏らの研究チームは、定量的かつ実証可能なAGI定義を提唱した。彼らの定義によれば、AGIとは「教育を受けた成人と同等の認知の多様性と実行能力を備える」こととされる。 この定義を実現するため、研究チームは人間認知の最も実証的かつ広く受け入れられている理論である「キャッティル・ホーン・カルロウ理論(CHC理論)」を基盤にしたフレームワークを構築した。この理論は、推論、記憶、知覚など10の主要な認知領域に人間の知能を分解するもので、これをもとに既存の心理測定テストをAI向けに再設計し、AIシステムの認知能力を評価できる仕組みを構築した。 このフレームワークを適用した結果、現行の大規模モデルは「不均一な認知プロファイル」を示した。知識に基づく領域では高い性能を発揮するものの、長期記憶の保存といった基礎的な認知機能に顕著な欠陥が見られた。この結果、GPT-4のAGIスコアは27%、GPT-5は57%と算出され、AIの急速な進展と、AGI到達までの依然として大きなギャップを数値で可視化した。 本研究は、AGIの進展を客観的に測定するための新たな基準を提示し、技術開発の方向性を明確にする上で重要な意義を持つ。研究の主な著者には、OpenAIのDan Hendrycks、Yoshua Bengio、Gary Marcus、Max Tegmark、Eric Schmidtらが名を連ね、AIの安全性と方向性を議論する国際的な専門家集団の合意の象徴ともいえる。
