HyperAI超神经

由北京大学与阿里巴巴联合研发的多模型服务系统Aegaeon，成功实现GPU资源利用率提升82%的突破。该系统可在单个GPU上同时支持最多7个AI模型，将原本10个模型所需的1192个GPU减少至213个，大幅降低算力成本。相关成果已发表于国际顶级会议SOSP 2025，阿里云CTO周靖人亦为论文作者之一。 Aegaeon的核心创新在于实现token级的自动扩缩容调度，即以每个生成token为单位动态分配资源，从而实现高效的GPU池化。系统通过代理层分发请求，并借助共享内存机制同步元数据，确保负载均衡与容错。在执行层面，Aegaeon采用预填充与解码阶段解耦架构，分别优化首个token延迟与后续生成效率，显著提升响应速度。为解决token级调度带来的高开销问题，研究团队提出多项关键技术：一是通过组件重用，减少推理引擎重启成本；二是实施显式内存管理，消除显存碎片；三是构建细粒度KV缓存同步机制，实现缓存换入换出与计算的高效重叠，将自动扩缩容开销降低97%。在内存管理方面，Aegaeon采用自管理显存缓冲区，一次性分配模型权重与KV缓存所需显存，并通过指针递增方式连续分配，释放仅需重置指针，彻底避免碎片问题。同时，系统引入“模型缓存”与“暂存缓冲区”，实现模型权重在主机内存中的高效存储与GPU间的流水线复制，显著缩短加载时间。此外，Aegaeon采用Slab分配机制统一管理不同形状的KV缓存，每个形状对应专属内存池，极大提升内存利用率，如同高效管理多种尺寸文具的“文具管理员”。该技术打破了传统多模型部署中每个GPU仅支持2-3个模型的瓶颈，推动AI模型服务从“专线独占”迈向“资源共享”的“高速公路”。目前，Aegaeon已在阿里云Model Studio上线Beta版本，服务超10个模型，为未来“模型超市”式AI服务奠定基础——用户可随时按需调用最优模型，无需担忧底层资源调度难题。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

北大阿里联手突破算力瓶颈：GPU资源净省82%，单卡支持7个模型 simultaneously

相关链接

Command Palette

北大阿里联手突破算力瓶颈：GPU资源净省82%，单卡支持7个模型 simultaneously

相关链接

Command Palette

北大阿里联手突破算力瓶颈：GPU资源净省82%，单卡支持7个模型 simultaneously

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟