北大阿里联手突破算力瓶颈:GPU资源净省82%,单卡支持7个模型 simultaneously
由北京大学与阿里巴巴联合研发的多模型服务系统Aegaeon,成功实现GPU资源利用率提升82%的突破。该系统可在单个GPU上同时支持最多7个AI模型,将原本10个模型所需的1192个GPU减少至213个,大幅降低算力成本。相关成果已发表于国际顶级会议SOSP 2025,阿里云CTO周靖人亦为论文作者之一。 Aegaeon的核心创新在于实现token级的自动扩缩容调度,即以每个生成token为单位动态分配资源,从而实现高效的GPU池化。系统通过代理层分发请求,并借助共享内存机制同步元数据,确保负载均衡与容错。在执行层面,Aegaeon采用预填充与解码阶段解耦架构,分别优化首个token延迟与后续生成效率,显著提升响应速度。 为解决token级调度带来的高开销问题,研究团队提出多项关键技术:一是通过组件重用,减少推理引擎重启成本;二是实施显式内存管理,消除显存碎片;三是构建细粒度KV缓存同步机制,实现缓存换入换出与计算的高效重叠,将自动扩缩容开销降低97%。 在内存管理方面,Aegaeon采用自管理显存缓冲区,一次性分配模型权重与KV缓存所需显存,并通过指针递增方式连续分配,释放仅需重置指针,彻底避免碎片问题。同时,系统引入“模型缓存”与“暂存缓冲区”,实现模型权重在主机内存中的高效存储与GPU间的流水线复制,显著缩短加载时间。 此外,Aegaeon采用Slab分配机制统一管理不同形状的KV缓存,每个形状对应专属内存池,极大提升内存利用率,如同高效管理多种尺寸文具的“文具管理员”。 该技术打破了传统多模型部署中每个GPU仅支持2-3个模型的瓶颈,推动AI模型服务从“专线独占”迈向“资源共享”的“高速公路”。目前,Aegaeon已在阿里云Model Studio上线Beta版本,服务超10个模型,为未来“模型超市”式AI服务奠定基础——用户可随时按需调用最优模型,无需担忧底层资源调度难题。
