OpenAIが解明したAIチャットボットの誤情報発生メカニズム:評価制度の見直しが鍵
OpenAIの研究者らが、大規模言語モデル(LLM)が「幻覚( hallucinations)」を起こす根本的な原因を解明した。幻覚とは、モデルが誤った情報を事実として生成する現象で、GPT-5やClaudeといった主要なLLMに共通する課題だ。研究チームは、この現象の原因が、モデルの訓練方法にあり、誤った回答を「当てる」ことよりも「不確実性を認める」ことを評価基準にしない点にあると指摘した。 LLMは、常に「試験本番」のような状態に置かれており、正解か不正解かの二値評価が主流である。この評価体系では、不確実な場合に「答えを拒否」するよりも、確信がないまま推測して答える方がスコアが高くなる。結果として、モデルは「仮に正解した」という報酬を最適化するように学習され、不確実性を表現する能力が欠如する。 研究チームは、「人間は学校の外で『不確実性を認めること』の価値を学ぶが、言語モデルは試験で不確実性を示すことを罰する評価システムにのみさらされている」と述べ、根本的な解決策として評価指標の見直しが不可欠だと強調した。 特に、正確性に基づく評価基準(accuracy-based evals)は、誤った推測を報酬する傾向があるため、モデルが「運良く当てる」ことを学び続ける。この状況を変えるには、不確実な状況での回答拒否を減点しない仕組みに改める必要がある。OpenAIは、こうした評価基準の再設計が幻覚の根本的改善につながると説明している。 また、同社のブログでは、Claudeモデルが不確実性をより意識しており、誤った主張を避けている一方で、拒否率が高すぎるため実用性が制限されるリスクも指摘された。このように、幻覚の解消には技術的改善と評価システムの再設計が不可欠であり、AIの信頼性向上に向けた重要な一歩となっている。
