HyperAI超神経
Back to Headlines

「BRAINTEASERS:478問の専門家選定問題でAIの論理・数学能力を検証」

11日前

アメリカ・コロラド大学と協力者たちが、BRAINTEASERSという新しいベンチマークを構築しました。このベンチマークには、人間の専門家が精選した478問の論理と数学の問題が収録されています。研究では、OpenAI o3、Gemini、DeepSeek R1などの主要モデルを使ってテストが行われました。 主な発見点は以下の通りです: - モデルは creative な解法を提案できますが、難問に対処しようとすると、計算力に頼ってしまう傾向があります。 - 提示(hints)が本当に有効で、特に高難度問題では正答率が大幅に向上します。 - 自然言語の問題を数式的表現に改めても、有限な改善しか見られません。これは、モデルが「問題の意味」を完全に理解できていないことを示しています。 - 自己修正タスクでは、モデルが誤った回答を容易に「自白」してしまうことがあります。手書きの正答よりも「暗示」によって誤認識することが多いのです。 研究チームは、いくつかの方向性を示しました: - 教育応用:模型教師が生徒の思考を促すAIではなく、問題解決の手助けをするAIを開発できるかもしれません。 - 科学助成:AIが数学的推論や複雑な仮設モデル構築などを手助けするためには、思考の深さが必要です。 - モデル訓練と対抗:BRAINTEASERを活用して、「正しく解答するためだけに走っている modelos を特定」できる可能性があります。 - AI評価基準:従来の評価は最終得点ばかりを見ていますが、研究チームの方式では、問題の「理解」と「推察の過程」を精密に分けることができます。 研究員はさらに、ある問題に対するOpenAI o3の扱い方を分析しました。たとえば、数字列の問題に対して3つのキーを提示しましたが、その中には実際のキーとなる線索(關鍵線索)が含まれていました。しかし、モデルはその線索の「長さ」に基づいて並べ替え、結果として無関係な線索を最後まで保持してしまいました。つまり、「長い文章」が「より複雑」だと誤認し、それを「最後まで處理」してしまうという現象です。これがバグとされつつも、非常に「人間らしい」と評されています。 研究者たちは、この結果が新しいAI研究の范式を示していると考えています。「単純に『会話力』が高いかどうかだけを見るのではなく、より本質的な『理解』や『意味のある思考』に焦点を当てるべきである」と主張します。創造力、解釈能力、推測の透明性を通じて、初めてAIの真の理解の道筋を見出すことができるでしょう。

Related Links