AIの「幻覚」は訓練の仕方次第で防げる——OpenAI研究が提言する真実のあり方
OpenAIがそのfor-profit部門を公共利益法人に再編するなど、AI業界の急成長に伴い、技術の信頼性に向けた懸念が高まっている。特に、大規模言語モデル(LLM)が「幻覚( hallucination)」と呼ばれる、自信を持って誤った情報を発信する問題は、根本的な課題として残っている。昨年12月に公開されたプレプリント論文によると、たとえ訓練データが完璧でも、LLMは「答えられない質問」に直面した際に、必ずしも「知らない」と答えず、代わりに自信を持って誤りを生成してしまう。その理由は、モデルの学習方法にあり、現行のベンチマーク評価体系が「自信ある誤答」を高く評価し、「知らない」と答えることを罰する構造になっているためだ。 研究チームは、モデルが「私は知りません」と答えることを奨励する評価基準の見直しを提唱。現行の9割以上のベンチマークは、正解=1、誤答または空白=0という単純なスコアリングであり、誤った推論をしたモデルが、慎重に「わからない」と答えるモデルより高得点を取る構造になっている。この仕組みが、AIに「誤魔化す」行動を学ばせていると指摘する。 しかし、実際の運用では、ユーザーが「知らない」と答えるAIに不満を抱く可能性がある。AIが頻繁に「わからない」と答えると、利用者が他サービスに移行するリスクがあり、OpenAIのような企業にとっては収益化と成長の妨げになる。研究者の中には、「幻覚を完全に解消すれば、製品は価値を失う」との声も出ている。アリゾナ州立大学のSubbarao Kambhampati教授は、「LLMは『超強化されたオートコンプリート』にすぎず、完全な正解は不可能」と指摘。数学的にも、生成エラー率は分類エラー率の2倍以上になることが示された。 また、専門家らは、評価基準の変更が簡単ではないと懸念。プリンストン大学のCarlos Jimenez氏は、多様な分野にわたる評価の違いが、一律の「不確実性評価」の導入を難しくすると指摘。一方、イリノイ大学のHao Peng氏は、「どんな評価基準でも、モデルがそれを巧みに利用する」と警告し、根本的な解決は難しいと述べている。 結局のところ、幻覚問題の解決は、技術的課題ではなく、ビジネスモデルとユーザー期待とのバランスにかかっている。AI企業が「知らぬことを認めること」を評価する体制を整えるかどうかが、今後の信頼性向上の鍵となる。
