OpenAIが大規模言語モデルの誤った情報生成(幻覚)の原因として過信の傾向を指摘。
OpenAIは、大規模言語モデル(LLM)の「幻覚」( hallucination)の主な原因として、モデルの「過信」(overconfidence)に注目している。幻覚とは、モデルが事実と異なる情報を生成し、それを真実であるかのように提示する現象を指す。ChatGPTの登場から3年が経過した現在も、LLMは依然として幻覚に悩まされているが、その発生頻度は大幅に低下している。しかし、なぜそのような改善が起きたのか、そして根本的な原因が何であるかは依然として不明である。OpenAIは、この謎の鍵を「モデルの自己評価の仕方」に見いだした。 その核心は、LLMが自身の出力に対する「確信度」を過剰に高める傾向にあることにある。モデルは大量のデータからパターンを学習するため、一見論理的で自然な文を生成できるが、その背後には「知らぬ間に誤った情報を確信して出力する」リスクがある。OpenAIの研究チームは、この過信が幻覚を生み出す主要因であると仮説を立て、実験的に検証を進めている。特に、モデルが「自信を持っているほど誤りを犯す傾向がある」というデータが得られたことで、幻覚の発生メカニズムに新たな光が当たった。 そこでOpenAIが提案する新しいアプローチは、「謙虚さを報酬する」(reward humility)設計だ。従来の強化学習では、出力の自然さや文の整合性に応じて報酬を与えることが多かったが、OpenAIは「出力の信頼度と正確性の一致度」を重視する新たな報酬関数を導入した。つまり、モデルが「自信を持って」誤った情報を出力しても報酬されず、むしろ「自信が低いが正確な回答」をした場合に高い評価を与える仕組みである。この仕組みにより、モデルは「分からないときは言わない」姿勢を学習し、過信を避け、幻覚を抑制するようになる。 このアプローチは、単なる技術的な改良にとどまらず、AIの信頼性を高めるための根本的な哲学の転換とも言える。LLMが「自分は知らない」と正直に言う能力を育てることで、医療、法務、教育などの信頼を要する分野での活用が進む可能性がある。専門家からは、「幻覚の原因を『過信』と明確に特定した点が画期的。報酬設計の見直しは、AIの安全性を高めるための実用的な道筋を示している」との評価が寄せられている。 OpenAIの取り組みは、LLMの進化において「正確性」よりも「誠実さ」を重視する新たな時代の幕開けを示している。今後、この「謙虚さの報酬」設計が他のモデル開発にも広がれば、AIが私たちの社会に与える影響は、より安全で信頼できるものへと進化するだろう。
