HyperAI超神经

斯坦福大学研究团队发现，当前主流人工智能模型存在一种“视错觉”效应，即在没有图像输入的情况下，仍能自信地生成看似精确的虚假视觉描述。这项研究通过名为“幻影 -0"的测试揭示，当向包括 GPT-5、Gemini 3 Pro 及 Claude 系列在内的顶尖多模态模型提问时，即便未上传任何图片，模型也会编造出详细的虚构细节，如具体的车牌号、语言特征甚至不存在的疾病状况。测试结果显示，这种幻觉行为在前端模型中平均出现频率超过 60%。研究发现，现有的人工智能视觉评估体系存在重大缺陷。模型的高分往往并非源于真正的视觉理解，而是依靠从问题文本中提取的隐藏线索和统计模式进行猜测。为了验证这一点，研究人员甚至训练了一个纯文本模型参与胸部 X 光检查问答测试。结果令人震惊：该无视觉能力的模型在基准测试中的表现优于顶级多模态 AI 系统以及人类医生。这表明当前的评估标准过度依赖文本线索，而非真实的视觉分析能力。此外，研究指出，当明确告知模型图像缺失并要求猜测时，其回答准确率会显著下降；反之，若默认图像存在，模型便会进入“幻觉模式”，利用文本规律生成看似合理的答案。这一现象在医疗等高风险领域尤为危险，因为虚假的医疗诊断可能导致严重后果。针对这一问题，团队提出了一种名为"B-Clean"的新的评估方法。该方法旨在筛选并剔除那些仅凭文本线索即可回答的问题，从而更公平、准确地测试模型基于真实视觉输入的理解能力。研究结果已发布在 arXiv 预印本服务器上。虽然 B-Clean 提供了改进评估的潜力，但要彻底消除这种幻觉效应并确保 AI 输出真正基于视觉输入，未来仍需进一步的研究与验证。这一发现呼吁建立更安全、更严谨的基准测试标准，以推动多模态 AI 技术的可信发展。

相关链接

相关链接

相关链接

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

Command Palette

AI 模型能虚构不存在的图像视觉理解

相关链接

Command Palette

AI 模型能虚构不存在的图像视觉理解

相关链接

Command Palette

AI 模型能虚构不存在的图像视觉理解

相关链接

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集