北大阿里联合推出Aegaeon系统,实现单GPU支持7个AI模型,GPU资源节省高达82%
在人工智能模型大规模部署的背景下,算力资源的浪费问题日益凸显。北京大学与阿里巴巴联合研发的多模型服务系统Aegaeon,成功实现GPU资源利用率提升82%,单个GPU最高可支持7个模型并发运行,显著突破了传统部署模式的瓶颈。该成果已发表于国际顶级学术会议SOSP 2025,阿里云CTO周靖人亦为论文作者之一。 Aegaeon的核心创新在于实现token级的动态调度与自动扩缩容。传统方案通常以请求为单位进行资源分配,难以应对模型间负载波动和突发流量。而Aegaeon将调度粒度细化至每个生成token,结合预填充与解码阶段解耦架构,分别采用分组先到先服务调度器与独立调度策略,有效压缩首个token延迟,保障服务质量。 为支撑这一精细调度,研究团队攻克了多项关键技术难题。首先,针对自动扩缩容带来的高延迟问题——如KV缓存换入换出、显存碎片整理、引擎重初始化等耗时操作,Aegaeon通过三项深度优化实现近乎实时响应:一是识别推理引擎初始化中的可重用组件,大幅减少重复开销;二是引入显式内存管理机制,构建自管理显存缓冲区,采用指针递增分配方式,实现零碎片化内存分配与瞬时释放;三是设计细粒度KV缓存同步机制,实现计算与数据迁移的高效重叠。 此外,Aegaeon采用统一KV缓存架构,借鉴Slab内存管理思想,为不同形状的KV缓存预先划分专用块池,避免碎片问题,显著提升内存利用率。模型加载方面,系统通过共享主机内存中的“模型缓存”与GPU专属“暂存缓冲区”,实现多线程、分块、流水线式权重传输,加载速度媲美最优现有方案。 在架构层面,Aegaeon通过代理层统一接收并分发多模型请求,借助共享内存机制同步元数据,确保负载均衡与容错能力。请求被路由至同一GPU实例后,由token级调度器动态协调执行顺序与资源分配,实现高效协同。 实验表明,相较于现有方案,Aegaeon在维持更高服务质量的前提下,将10个模型所需的GPU数量从1192个降至213个,资源节省率达82%;请求到达率提升2至2.5倍,有效吞吐量最高提升9倍。 目前,Aegaeon已在阿里云Model Studio完成Beta部署,服务超10个模型。这一成果标志着AI模型服务正从“专用专线”迈向“共享高速公路”——未来用户或可像“逛超市”一样,在云端按需调用任意模型,无需担忧底层资源调度复杂性。Aegaeon不仅为大规模模型部署提供了高效解决方案,也为构建开放、灵活、普惠的AI基础设施奠定了关键技术基础。
