Back to Headlines

AI内存瓶颈困局:WEKA CEO揭示行业隐性危机

7 天前

人工智能正面临一场隐秘的“内存危机”。WEKA公司首席执行官拉兰·兹维贝尔(Liran Zvibel)在接受《信息》(The Information)执行编辑阿米尔·埃夫拉蒂采访时指出,尽管人们普遍担忧AI算力泡沫,但真正制约行业发展的瓶颈并非计算能力本身,而是内存限制——他称之为“AI内存墙”。 当前,尽管Nvidia的Blackwell Ultra等顶级GPU拥有高达300GB的显存,但在处理如Meta Llama这类大型模型的推理任务时,仍难以满足需求。以一个10万token的上下文窗口为例,仅需50GB内存,而当多个用户同时使用时,内存迅速耗尽,导致系统无法支持更多并发请求。 “推理是内存密集型任务,而训练才是计算密集型。”兹维贝尔强调,目前大量GPU资源被用于推理,但这些硬件在推理场景下效率极低,造成严重浪费。许多基础设施原本为训练设计,却被迫承担推理负载,结果是“GPU空转,用户体验变差”——用户在使用ChatGPT等服务时遭遇延迟、卡顿和速率限制,正是这一问题的直接体现。 更严峻的是,随着“智能体AI”(Agentic AI)的发展,模型需要更长的上下文、更强的推理能力和更复杂的验证机制,内存压力将进一步加剧。兹维贝尔警告:“在智能体数量爆发前,我们必须解决这个问题。” 为应对挑战,部分领先实验室已开始探索高效路径。例如,DeepSeek通过关键值缓存和预填充任务拆分等技术,显著提升内存利用率;Cohere则借助WEKA平台,将GPU预热时间从15分钟缩短至秒级,实现首token响应时间减半,同时并发处理能力提升四到五倍。 兹维贝尔指出,训练投入虽可无上限,但推理必须讲求经济性——它必须与全球用户规模匹配,才能实现可持续盈利。目前,推理已占OpenAI收入的近60%。 未来,旧款GPU未必被淘汰,而是可被重新利用于推理流程中较不关键的环节。例如,将高负载的“预填充”阶段交给最新GPU,而将“解码”任务交给性能稍弱但成本更低的旧硬件。这种“算力解耦”策略,有望大幅降低AI基础设施的总体成本。 “训练赢在结果,推理赢在经济。”兹维贝尔总结道,真正决定AI能否规模化落地的,不是模型有多强大,而是能否以可承受的成本持续运行。解决内存瓶颈,正是通往高效、可持续AI时代的关键一步。

Related Links