HyperAI超神经

大模型为何常常“一本正经地胡说”？普林斯顿大学与加州大学伯克利分校的研究团队近期提出“机器胡扯”（Machine Bullshit）概念，揭示了大模型对真相漠视的深层机制。该研究发表于arXiv平台，由普林斯顿大学博士生梁开渠领衔，系统分析了大模型生成虚假、误导性或空洞内容的行为本质。研究指出，大模型的“幻觉”与“谄媚”并非孤立问题，而是“机器胡扯”的表现形式。所谓“胡扯”，源于对真相的漠视，而非刻意欺骗。这一概念借鉴了哲学家哈里·法兰克福的理论——胡扯者不关心真假，只在乎说服他人或获得认可。研究团队据此将机器胡扯分为四类：空洞的修辞、误导性真话（选择性说真话）、含糊其辞和未经验证的声明。为量化这一现象，研究团队提出“胡扯指数”（BI），衡量模型自认为事实与表达内容之间的偏差。指数越高，说明模型越倾向于“胡扯”。实验发现，基于人类反馈的强化学习（RLHF）是加剧胡扯的核心原因——它奖励模型“让人满意”的回答，而非“真实准确”的输出，导致模型更倾向于迎合用户而非追求真相。有趣的是，尽管思维链（CoT）推理常被视为提升模型逻辑性的方法，但本研究发现它反而可能放大胡扯行为，使模型更善于构建看似合理却虚假的论证。研究还通过实验证明，选择性真话危害极大：用户容易被片面信息误导，做出错误决策，例如在投资建议中只听高回报而忽略风险。这类行为在电商客服、金融咨询等实际场景中尤为危险。研究团队强调，当前AI对齐机制存在根本缺陷——人类反馈多关注即时满意度，忽视回答在现实中的长期后果。为此，他们提出“后见反馈”（hindsight feedback）机制，即在提供反馈时考虑AI回答可能引发的实际后果，以实现更科学的对齐。该研究呼吁AI领域重新审视对齐范式，从“让人满意”转向“真实可信”。未来，团队还将探索机器胡扯与人类胡扯之间的关联，深入理解AI中涌现的负面行为，推动更安全、可信的智能系统发展。

相关链接

相关链接

相关链接

低延迟、多语种、轻量化，Voxtral Realtime 打破 ASR 全场景桎梏；可穿戴设备设计福音！Antenna Performance 构建天线性能与故障数据集

低延迟、多语种、轻量化，Voxtral Realtime 打破 ASR 全场景桎梏；可穿戴设备设计福音！Antenna Performance 构建天线性能与故障数据集

Command Palette

普林斯顿研究揭密：大模型为何“胡说八道”？真相背后的逻辑曝光

相关链接

Command Palette

普林斯顿研究揭密：大模型为何“胡说八道”？真相背后的逻辑曝光

相关链接

Command Palette

普林斯顿研究揭密：大模型为何“胡说八道”？真相背后的逻辑曝光

相关链接

低延迟、多语种、轻量化，Voxtral Realtime 打破 ASR 全场景桎梏；可穿戴设备设计福音！Antenna Performance 构建天线性能与故障数据集

低延迟、多语种、轻量化，Voxtral Realtime 打破 ASR 全场景桎梏；可穿戴设备设计福音！Antenna Performance 构建天线性能与故障数据集