HyperAI

OpenAIがそのfor-profit部門を公共利益法人に再編するなど、AI業界の急成長に伴い、技術の信頼性に向けた懸念が高まっている。特に、大規模言語モデル（LLM）が「幻覚（ hallucination）」と呼ばれる、自信を持って誤った情報を発信する問題は、根本的な課題として残っている。昨年12月に公開されたプレプリント論文によると、たとえ訓練データが完璧でも、LLMは「答えられない質問」に直面した際に、必ずしも「知らない」と答えず、代わりに自信を持って誤りを生成してしまう。その理由は、モデルの学習方法にあり、現行のベンチマーク評価体系が「自信ある誤答」を高く評価し、「知らない」と答えることを罰する構造になっているためだ。研究チームは、モデルが「私は知りません」と答えることを奨励する評価基準の見直しを提唱。現行の9割以上のベンチマークは、正解＝1、誤答または空白＝0という単純なスコアリングであり、誤った推論をしたモデルが、慎重に「わからない」と答えるモデルより高得点を取る構造になっている。この仕組みが、AIに「誤魔化す」行動を学ばせていると指摘する。しかし、実際の運用では、ユーザーが「知らない」と答えるAIに不満を抱く可能性がある。AIが頻繁に「わからない」と答えると、利用者が他サービスに移行するリスクがあり、OpenAIのような企業にとっては収益化と成長の妨げになる。研究者の中には、「幻覚を完全に解消すれば、製品は価値を失う」との声も出ている。アリゾナ州立大学のSubbarao Kambhampati教授は、「LLMは『超強化されたオートコンプリート』にすぎず、完全な正解は不可能」と指摘。数学的にも、生成エラー率は分類エラー率の2倍以上になることが示された。また、専門家らは、評価基準の変更が簡単ではないと懸念。プリンストン大学のCarlos Jimenez氏は、多様な分野にわたる評価の違いが、一律の「不確実性評価」の導入を難しくすると指摘。一方、イリノイ大学のHao Peng氏は、「どんな評価基準でも、モデルがそれを巧みに利用する」と警告し、根本的な解決は難しいと述べている。結局のところ、幻覚問題の解決は、技術的課題ではなく、ビジネスモデルとユーザー期待とのバランスにかかっている。AI企業が「知らぬことを認めること」を評価する体制を整えるかどうかが、今後の信頼性向上の鍵となる。

関連リンク

関連リンク

関連リンク

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

Command Palette

AIの「幻覚」は訓練の仕方次第で防げる——OpenAI研究が提言する真実のあり方

関連リンク

Command Palette

AIの「幻覚」は訓練の仕方次第で防げる——OpenAI研究が提言する真実のあり方

関連リンク

Command Palette

AIの「幻覚」は訓練の仕方次第で防げる——OpenAI研究が提言する真実のあり方

関連リンク

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。