HyperAI

在人工智能模型大规模部署的背景下，算力资源的浪费问题日益凸显。北京大学与阿里巴巴联合研发的多模型服务系统Aegaeon，成功实现GPU资源利用率提升82%，单个GPU最高可支持7个模型并发运行，显著突破了传统部署模式的瓶颈。该成果已发表于国际顶级学术会议SOSP 2025，阿里云CTO周靖人亦为论文作者之一。 Aegaeon的核心创新在于实现token级的动态调度与自动扩缩容。传统方案通常以请求为单位进行资源分配，难以应对模型间负载波动和突发流量。而Aegaeon将调度粒度细化至每个生成token，结合预填充与解码阶段解耦架构，分别采用分组先到先服务调度器与独立调度策略，有效压缩首个token延迟，保障服务质量。为支撑这一精细调度，研究团队攻克了多项关键技术难题。首先，针对自动扩缩容带来的高延迟问题——如KV缓存换入换出、显存碎片整理、引擎重初始化等耗时操作，Aegaeon通过三项深度优化实现近乎实时响应：一是识别推理引擎初始化中的可重用组件，大幅减少重复开销；二是引入显式内存管理机制，构建自管理显存缓冲区，采用指针递增分配方式，实现零碎片化内存分配与瞬时释放；三是设计细粒度KV缓存同步机制，实现计算与数据迁移的高效重叠。此外，Aegaeon采用统一KV缓存架构，借鉴Slab内存管理思想，为不同形状的KV缓存预先划分专用块池，避免碎片问题，显著提升内存利用率。模型加载方面，系统通过共享主机内存中的“模型缓存”与GPU专属“暂存缓冲区”，实现多线程、分块、流水线式权重传输，加载速度媲美最优现有方案。在架构层面，Aegaeon通过代理层统一接收并分发多模型请求，借助共享内存机制同步元数据，确保负载均衡与容错能力。请求被路由至同一GPU实例后，由token级调度器动态协调执行顺序与资源分配，实现高效协同。实验表明，相较于现有方案，Aegaeon在维持更高服务质量的前提下，将10个模型所需的GPU数量从1192个降至213个，资源节省率达82%；请求到达率提升2至2.5倍，有效吞吐量最高提升9倍。目前，Aegaeon已在阿里云Model Studio完成Beta部署，服务超10个模型。这一成果标志着AI模型服务正从“专用专线”迈向“共享高速公路”——未来用户或可像“逛超市”一样，在云端按需调用任意模型，无需担忧底层资源调度复杂性。Aegaeon不仅为大规模模型部署提供了高效解决方案，也为构建开放、灵活、普惠的AI基础设施奠定了关键技术基础。

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

ما وراء الواقع المرئي: نظام التقييم الجديد في تسينغهوا وورلد أرينا يكشف عن فجوة القدرات في نماذج العالم المجسد

ما وراء الواقع المرئي: نظام التقييم الجديد في تسينغهوا وورلد أرينا يكشف عن فجوة القدرات في نماذج العالم المجسد

Command Palette

北大阿里联合推出Aegaeon系统，实现单GPU支持7个AI模型，GPU资源节省高达82%

الروابط ذات الصلة

Command Palette

北大阿里联合推出Aegaeon系统，实现单GPU支持7个AI模型，GPU资源节省高达82%

الروابط ذات الصلة

Command Palette

北大阿里联合推出Aegaeon系统，实现单GPU支持7个AI模型，GPU资源节省高达82%

الروابط ذات الصلة

ما وراء الواقع المرئي: نظام التقييم الجديد في تسينغهوا وورلد أرينا يكشف عن فجوة القدرات في نماذج العالم المجسد

ما وراء الواقع المرئي: نظام التقييم الجديد في تسينغهوا وورلد أرينا يكشف عن فجوة القدرات في نماذج العالم المجسد