HyperAIHyperAI

Command Palette

Search for a command to run...

Peking-Universität und Alibaba senken GPU-Verbrauch um 82 % mit Aegaeon

北京大学与阿里巴巴联合研发的多模型服务系统Aegaeon,成功实现GPU资源利用率提升82%,单个GPU最多可支持7个模型并行运行。该系统在2025年美国计算机协会(ACM)操作系统原理研讨会(SOSP)上发表,阿里云CTO周靖人亦为论文作者之一。Aegaeon通过在token粒度上实现自动扩缩容,突破了传统多模型部署中GPU资源池化效率低下的瓶颈。实验显示,原本需1192个GPU支持10个模型的场景,现仅需213个GPU即可完成,资源消耗大幅降低。其核心创新在于构建了细粒度的token级调度器,将请求处理与资源扩缩容联合决策,有效平衡了延迟与服务质量(SLO),并支持预填充与解码阶段的独立调度,显著提升首token响应速度。 为解决token级扩缩容带来的高开销问题,Aegaeon引入多项深度优化:首先,通过组件重用技术,大幅减少推理引擎重新初始化的开销;其次,采用自管理显存缓冲区,以指针递增方式连续分配内存,实现零碎片化显存管理,避免传统显存碎片整理的延迟;第三,通过细粒度KV缓存同步机制,实现缓存换入换出与计算执行的高效重叠。此外,Aegaeon设计了“模型缓存”与“暂存缓冲区”机制,将模型权重预加载至共享主机内存,支持多线程分块流水线复制,使模型加载时间与现有最优方案相当。在KV缓存管理上,采用Slab分配策略,为不同形状的缓存块建立专用池,极大提升内存利用率。 Aegaeon已部署于阿里云Model Studio,当前支持10个模型的并行服务。其架构由代理层与token级调度器构成,代理层通过共享内存机制实现元数据同步,保障负载均衡与容错能力。系统能将不同模型的请求动态分发至同一GPU实例,实现资源的智能复用。该技术标志着AI模型服务正从“专用专线”迈向“共享高速公路”,为未来“模型超市”式服务提供可能——用户可按需调用任意模型,后台由Aegaeon自动完成资源调度与优化。 业内专家认为,Aegaeon的突破性在于将调度粒度从请求级推进至token级,同时通过全栈优化解决长期存在的显存碎片与扩缩容延迟问题,为大规模多模型服务提供了可落地的解决方案。其技术路径对云原生AI平台、大模型推理服务及算力资源管理具有深远影响。该成果不仅推动了AI基础设施的效率革命,也为实现高并发、低延迟、低成本的通用AI服务奠定了技术基础。

Verwandte Links