HyperAI超神经

Surge AI首席执行官埃德温·陈（Edwin Chen）在周日发布的一期《Lenny's》播客中警告，当前人工智能行业正陷入“AI垃圾”（AI slop）的陷阱，企业过度追求表面 flashy 的回应，而非解决真实世界的重大问题。他忧心忡忡地表示：“我们本应打造能推动人类进步、攻克癌症、消除贫困、探索宇宙奥秘的AI，但现在却在优化那些毫无实质意义的模型输出。” 陈指出，这种现象的根源在于行业依赖的排行榜机制，尤其是广为人知的LMArena平台。他批评这些榜单让评估变得肤浅：“人们只花两秒钟扫一眼回复，就选看起来最炫的那一个。”他形容这种行为“本质上是在训练模型迎合那些在超市买八卦杂志的人”。尽管明知这些排行榜存在缺陷，AI实验室仍不得不重视它们，因为客户常在销售会议中追问排名表现。陈认为，这种扭曲的激励机制导致模型优化方向偏离了“真理”与“实用性”，反而追逐短期的感官刺激，如同“追逐多巴胺”。类似担忧也来自其他领域专家。ZeroPath联合创始人兼CEO迪恩·瓦伦丁（Dean Valentine）在3月博客中直言，近期AI模型的所谓“进步”“大多都是垃圾”。他和团队测试了自Anthropic发布3.5 Sonnet以来多个宣称有“显著提升”的模型，发现它们在内部测试中未带来实质改进，也无法帮助开发者更有效地发现漏洞，仅在“聊天趣味性”上略有优势。欧盟联合研究中心在2月发布的研究报告《我们能信任AI基准吗？》也指出，当前AI评估体系深受文化、商业和竞争因素影响，往往为追求“前沿性能”而牺牲更广泛的社会价值。更严重的是，企业常通过“作弊”手段提升榜单排名——例如Meta在4月发布Llama 4 Maverick时，被指提交了为特定测试格式“量身定制”的版本，引发LMArena平台批评，称其“未遵守我们对模型提供方的期待”。这些声音共同揭示了一个深层问题：AI的前进方向，正被排行榜和短期表现所绑架，而非真正服务于人类的长远福祉。

相关链接

相关链接

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

Command Palette

Surge AI CEO警示：企业沉迷AI噱头，忽视真正重大挑战

相关链接

Command Palette

Surge AI CEO警示：企业沉迷AI噱头，忽视真正重大挑战

相关链接

Command Palette

Surge AI CEO警示：企业沉迷AI噱头，忽视真正重大挑战

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化