Surge AI CEO警示:企业沉迷AI噱头,忽视真正重大挑战
Surge AI首席执行官埃德温·陈(Edwin Chen)在周日发布的一期《Lenny's》播客中警告,当前人工智能行业正陷入“AI垃圾”(AI slop)的陷阱,企业过度追求表面 flashy 的回应,而非解决真实世界的重大问题。他忧心忡忡地表示:“我们本应打造能推动人类进步、攻克癌症、消除贫困、探索宇宙奥秘的AI,但现在却在优化那些毫无实质意义的模型输出。” 陈指出,这种现象的根源在于行业依赖的排行榜机制,尤其是广为人知的LMArena平台。他批评这些榜单让评估变得肤浅:“人们只花两秒钟扫一眼回复,就选看起来最炫的那一个。”他形容这种行为“本质上是在训练模型迎合那些在超市买八卦杂志的人”。 尽管明知这些排行榜存在缺陷,AI实验室仍不得不重视它们,因为客户常在销售会议中追问排名表现。陈认为,这种扭曲的激励机制导致模型优化方向偏离了“真理”与“实用性”,反而追逐短期的感官刺激,如同“追逐多巴胺”。 类似担忧也来自其他领域专家。ZeroPath联合创始人兼CEO迪恩·瓦伦丁(Dean Valentine)在3月博客中直言,近期AI模型的所谓“进步”“大多都是垃圾”。他和团队测试了自Anthropic发布3.5 Sonnet以来多个宣称有“显著提升”的模型,发现它们在内部测试中未带来实质改进,也无法帮助开发者更有效地发现漏洞,仅在“聊天趣味性”上略有优势。 欧盟联合研究中心在2月发布的研究报告《我们能信任AI基准吗?》也指出,当前AI评估体系深受文化、商业和竞争因素影响,往往为追求“前沿性能”而牺牲更广泛的社会价值。更严重的是,企业常通过“作弊”手段提升榜单排名——例如Meta在4月发布Llama 4 Maverick时,被指提交了为特定测试格式“量身定制”的版本,引发LMArena平台批评,称其“未遵守我们对模型提供方的期待”。 这些声音共同揭示了一个深层问题:AI的前进方向,正被排行榜和短期表现所绑架,而非真正服务于人类的长远福祉。
