HyperAI

北京大学与阿里巴巴联合研发的多模型服务系统Aegaeon，成功实现GPU资源利用率提升82%，单个GPU最多可支持7个模型并行运行。该系统在2025年美国计算机协会（ACM）操作系统原理研讨会（SOSP）上发表，阿里云CTO周靖人亦为论文作者之一。Aegaeon通过在token粒度上实现自动扩缩容，突破了传统多模型部署中GPU资源池化效率低下的瓶颈。实验显示，原本需1192个GPU支持10个模型的场景，现仅需213个GPU即可完成，资源消耗大幅降低。其核心创新在于构建了细粒度的token级调度器，将请求处理与资源扩缩容联合决策，有效平衡了延迟与服务质量（SLO），并支持预填充与解码阶段的独立调度，显著提升首token响应速度。为解决token级扩缩容带来的高开销问题，Aegaeon引入多项深度优化：首先，通过组件重用技术，大幅减少推理引擎重新初始化的开销；其次，采用自管理显存缓冲区，以指针递增方式连续分配内存，实现零碎片化显存管理，避免传统显存碎片整理的延迟；第三，通过细粒度KV缓存同步机制，实现缓存换入换出与计算执行的高效重叠。此外，Aegaeon设计了“模型缓存”与“暂存缓冲区”机制，将模型权重预加载至共享主机内存，支持多线程分块流水线复制，使模型加载时间与现有最优方案相当。在KV缓存管理上，采用Slab分配策略，为不同形状的缓存块建立专用池，极大提升内存利用率。 Aegaeon已部署于阿里云Model Studio，当前支持10个模型的并行服务。其架构由代理层与token级调度器构成，代理层通过共享内存机制实现元数据同步，保障负载均衡与容错能力。系统能将不同模型的请求动态分发至同一GPU实例，实现资源的智能复用。该技术标志着AI模型服务正从“专用专线”迈向“共享高速公路”，为未来“模型超市”式服务提供可能——用户可按需调用任意模型，后台由Aegaeon自动完成资源调度与优化。业内专家认为，Aegaeon的突破性在于将调度粒度从请求级推进至token级，同时通过全栈优化解决长期存在的显存碎片与扩缩容延迟问题，为大规模多模型服务提供了可落地的解决方案。其技术路径对云原生AI平台、大模型推理服务及算力资源管理具有深远影响。该成果不仅推动了AI基础设施的效率革命，也为实现高并发、低延迟、低成本的通用AI服务奠定了技术基础。

Verwandte Links

Verwandte Links

Verwandte Links

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Command Palette

Peking-Universität und Alibaba senken GPU-Verbrauch um 82 % mit Aegaeon

Verwandte Links

Command Palette

Peking-Universität und Alibaba senken GPU-Verbrauch um 82 % mit Aegaeon

Verwandte Links

Command Palette

Peking-Universität und Alibaba senken GPU-Verbrauch um 82 % mit Aegaeon

Verwandte Links

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf