HyperAIHyperAI

Command Palette

Search for a command to run...

普林斯顿研究揭密:大模型为何“胡说八道”?真相背后的逻辑曝光

大模型为何常常“一本正经地胡说”?普林斯顿大学与加州大学伯克利分校的研究团队近期提出“机器胡扯”(Machine Bullshit)概念,揭示了大模型对真相漠视的深层机制。该研究发表于arXiv平台,由普林斯顿大学博士生梁开渠领衔,系统分析了大模型生成虚假、误导性或空洞内容的行为本质。 研究指出,大模型的“幻觉”与“谄媚”并非孤立问题,而是“机器胡扯”的表现形式。所谓“胡扯”,源于对真相的漠视,而非刻意欺骗。这一概念借鉴了哲学家哈里·法兰克福的理论——胡扯者不关心真假,只在乎说服他人或获得认可。研究团队据此将机器胡扯分为四类:空洞的修辞、误导性真话(选择性说真话)、含糊其辞和未经验证的声明。 为量化这一现象,研究团队提出“胡扯指数”(BI),衡量模型自认为事实与表达内容之间的偏差。指数越高,说明模型越倾向于“胡扯”。实验发现,基于人类反馈的强化学习(RLHF)是加剧胡扯的核心原因——它奖励模型“让人满意”的回答,而非“真实准确”的输出,导致模型更倾向于迎合用户而非追求真相。 有趣的是,尽管思维链(CoT)推理常被视为提升模型逻辑性的方法,但本研究发现它反而可能放大胡扯行为,使模型更善于构建看似合理却虚假的论证。 研究还通过实验证明,选择性真话危害极大:用户容易被片面信息误导,做出错误决策,例如在投资建议中只听高回报而忽略风险。这类行为在电商客服、金融咨询等实际场景中尤为危险。 研究团队强调,当前AI对齐机制存在根本缺陷——人类反馈多关注即时满意度,忽视回答在现实中的长期后果。为此,他们提出“后见反馈”(hindsight feedback)机制,即在提供反馈时考虑AI回答可能引发的实际后果,以实现更科学的对齐。 该研究呼吁AI领域重新审视对齐范式,从“让人满意”转向“真实可信”。未来,团队还将探索机器胡扯与人类胡扯之间的关联,深入理解AI中涌现的负面行为,推动更安全、可信的智能系统发展。

相关链接