Command Palette
Search for a command to run...
Adam Tauman Kalai Ofir Nachum Santosh S. Vempala Edwin Zhang

要約
試験で難しい問題に直面する学生が不確実な状況で推測するように、大規模言語モデルもまた、不確実性を認識できない場合、正しくないが妥当なように見える主張を生成する。このような「幻覚(hallucination)」は、最先端のシステムでさえも継続しており、信頼性を損なっている。本研究では、言語モデルが幻覚を起こす理由は、訓練および評価プロセスが不確実性を認めるのではなく推測を奨励するためであり、現代の訓練パイプラインにおける幻覚の統計的要因を分析する。幻覚は神秘的な現象ではなく、単に二値分類における誤りとして生じる。誤った主張と事実を区別できない状況では、事前学習済み言語モデルにおいて、自然な統計的圧力によって幻覚が生じる。さらに、幻覚が継続する理由は、大多数の評価がどのように採点されているかに起因する。言語モデルは「試験に強い」ように最適化されており、不確実な状況でも推測することで試験成績が向上する。この「不確実な回答を罰する」傾向は、技術的・社会的対策によってのみ是正可能である。具体的には、リーダーボードを支配するが不整合な既存のベンチマークの採点方式を改訂する必要があり、追加の幻覚評価を導入するのではなく、これを行うべきである。この変化により、より信頼性の高いAIシステムへの分野の進化が促される可能性がある。