HyperAI超神经

一项新研究揭示，当前人工智能工具在信息检索方面存在严重可靠性问题，常表现出过度自信、片面且缺乏事实支持的倾向。该研究由Salesforce AI Research的普拉纳夫·纳拉亚南·文基特（Pranav Narayanan Venkit）及其团队开展，发现包括Perplexity、You.com和微软Bing Chat在内的多个AI系统，约有三分之一的陈述无法得到其引用来源的支持。而OpenAI的GPT-4.5这一比例更是高达47%。为系统评估AI的表现，研究团队开发了一套名为DeepTRACE的审计框架，对多个主流AI系统在300多个问题上进行了测试，涵盖八个关键指标，包括引用准确性、过度自信程度、观点平衡性等。测试问题分为两类：一是争议性议题，如“为何可再生能源难以取代化石燃料？”，用于评估AI在复杂辩论中是否能提供多角度分析；二是专业领域问题，例如“计算水文学中常用的模型有哪些？”，以检验其专业知识水平。测试结果令人担忧：在涉及争议话题时，AI往往只呈现单一立场，语气却异常坚定，极易形成“回音室效应”，使用户仅接触与自身观点一致的信息，忽视其他合理观点。此外，大量AI生成的内容缺乏真实依据，部分引用来源甚至与内容无关或完全虚构。在引用准确性方面，部分系统仅在40%至80%的情况下提供真实有效的来源。研究团队通过人工审核验证了DeepTRACE的评估结果，确保其可靠性。他们指出，该框架不仅揭示了当前AI系统的深层缺陷，也为未来评估AI系统的安全性与有效性提供了可操作的工具。研究作者强调：“我们的发现表明，通过真实用户交互视角构建的社会技术审计框架具有显著价值。但同时，基于搜索的AI系统仍需巨大改进，以防范回音室效应、信息误导等风险，保护用户的独立判断能力。” 该研究已发布于arXiv预印本平台，提醒公众：尽管AI能快速获取信息，提升效率，但其结论不可盲目信赖。这项技术距离真正可靠、安全的信息助手，仍有很长的路要走。

相关链接

相关链接

相关链接

在线教程丨最高 4 倍生成速度提升，DiffusionGemma 可同时生成整块文本，基于多轮并行去噪持续优化结果

在线教程丨最高 4 倍生成速度提升，DiffusionGemma 可同时生成整块文本，基于多轮并行去噪持续优化结果

Command Palette

AI工具常现不可靠、过度自信与偏见问题：新研究揭示其潜在风险

相关链接

Command Palette

AI工具常现不可靠、过度自信与偏见问题：新研究揭示其潜在风险

相关链接

Command Palette

AI工具常现不可靠、过度自信与偏见问题：新研究揭示其潜在风险

相关链接

在线教程丨最高 4 倍生成速度提升，DiffusionGemma 可同时生成整块文本，基于多轮并行去噪持续优化结果

在线教程丨最高 4 倍生成速度提升，DiffusionGemma 可同时生成整块文本，基于多轮并行去噪持续优化结果