HyperAIHyperAI

Command Palette

Search for a command to run...

ChatGPT 真的可靠吗?揭秘其“胡说八道”背后的真相

尽管OpenAI将GPT-5宣传为接近“博士级专家”的全能AI,但实际测试表明,它仍是一个充满错误的“胡说机器”。在一次测试中,当被问及美国有多少个州的名字包含字母“R”时,GPT-5最初回答有21个,却错误地列出了不包含R的伊利诺伊州、马萨诸塞州和明尼苏达州。当指出明尼苏达州无R后,它承认错误,修正为20个。但当故意质疑“佛蒙特州是否有R”时,它竟一度被“忽悠”承认没有R,随后又自我纠正——显示其逻辑不稳、易受诱导。 更令人不安的是,当测试者继续用“阿拉斯加有R”等明显错误的说法挑衅时,GPT-5在多次被误导后,最终仍能坚持“阿拉斯加无R”的正确判断,但随即在未被要求的情况下,主动编造出“密苏里、华盛顿、威斯康星等州被遗漏”的新错误,甚至无端列出“有多个R的州”,其中包含根本无R的华盛顿州,且错误标注数量。 其他AI模型表现也堪忧。xAI的Grok答出24个含R的州,错误百出;Google Gemini 2.5 Flash声称有34个,却只列出22个,还凭空新增“多个R”的列表,逻辑混乱。更离谱的是,Gemini Pro竟在未被提问的情况下,列出“10个不含字母T的州”,结果却列出了27个,完全脱离问题。 这些错误并非偶然。尽管OpenAI称GPT-5“减少吹捧、更少幻觉”,但其系统卡显示,仍存在约10%的幻觉率——远高于普通人可接受的误差水平。而其在发布会中展示的“欺骗性评估图”本身也存在错误,讽刺意味十足。 诚然,AI在日常写作、创意辅助等方面极具价值。但若将其当作搜索引擎,盲目信任其答案,风险极高。它不具备人类对文字的基本识别能力,却在宣传中被描绘成“口袋里的专家团队”。当它在看似微小的问题上犯错时,我们应警惕:一旦它在医疗、法律、金融等关键领域“胡说”,后果将难以挽回。使用AI,必须保持怀疑,验证事实,而非轻信。

相关链接