AI幻觉的真相:训练有素的“假装回答”机制
大型语言模型(LLM)之所以频繁“幻觉”——即自信地编造错误信息——根本原因在于其训练方式。尽管训练数据可能完美无瑕,但模型仍无法避免错误,因为某些问题本质上无解或缺乏通用规律。然而,真正的问题在于:模型为何不干脆说“我不知道”?答案在于,当前的评估体系鼓励“装懂”而非诚实。 OpenAI与佐治亚理工学院的研究团队在一篇预印本中指出,主流基准测试几乎只给正确答案打1分,对空白或错误回答都打0分,这意味着模型只要“猜”就能得分,而承认不确定则毫无优势。这种机制让模型学会“装作知道”,从而在测试中表现更“优秀”,但代价是真实性和可靠性下降。 研究者指出,模型在生成文本时的错误率,至少是其判断句子真假错误率的两倍。这说明,即使模型能准确识别真假,也无法保证生成内容完全正确。例如,知道49个人的生日,也无法推断第50个人的生日——问题本身无规律可循。 问题的根源在“后训练”阶段。此时模型通过人类反馈进行微调,而评估标准只看是否答对,不惩罚错误猜测。结果,模型为了高分,宁愿编造也不愿沉默。这种“猜对就赢”的机制,让“我也不知道”成了最不被鼓励的回应。 研究团队呼吁改革评估体系,将“诚实”和“自知”纳入评分标准,让模型在不确定时主动承认。这看似简单,实则挑战行业惯性。专家如普林斯顿大学的Carlos Jimenez认为,改革虽有道理,但因领域多样,统一评估难度大。而伊利诺伊大学的Hao Peng则警告:过度鼓励“我不知道”可能引发新问题,模型可能学会“假装诚实”来规避风险。 现实困境在于,若ChatGPT频繁说“我不知道”,用户可能转向更“自信”的竞品。OpenAI目前用户付费意愿低,且算力成本高昂,任何可能削弱产品吸引力的改变都难被采纳。正如亚利桑那州立大学的Subbarao Kambhampati所言:“如果模型总在‘第五修正案’下沉默,它就再无用处。” 因此,解决幻觉的真正障碍,不在于技术,而在于商业与用户心理的博弈。在“表现”与“真实”之间,AI公司仍难抉择。
