HyperAIHyperAI

Command Palette

Search for a command to run...

北大・阿里が開発のAegaeonでGPU資源を82%削減、1GPUで最大7モデル同時運用を実現

北京大学と阿里巴巴の共同研究チームが、AIモデルの推論サービスにおけるGPUリソース効率を飛躍的に改善する新システム「Aegaeon」を発表した。このシステムは、1つのGPUで最大7つのモデルを同時に処理可能にし、10個のモデルを運用する際のGPU数を1192台から213台に削減、リソース使用量を最大82%削減する成果を達成した。成果は、米国計算機学会(ACM)が主催する国際的トップ会議「SOSP 2025」に採択され、阿里云CTOの周靖人も共著者として名を連ねている。 Aegaeonの核心技術は、トークン単位での自動スケーリングと高度なGPUプール化。従来のシステムはモデル単位でのリソース割り当てに限られ、1GPUあたり2~3モデルまでが限界だったが、Aegaeonはトークンレベルのスケジューリングにより、複数モデルのリクエストをリアルタイムで効率的に分散・実行できる。これにより、サービス品質(SLO)を維持しながら、最大9倍の有効スループットを実現した。 特に技術的革新は、自動スケーリングのコスト削減とメモリ管理の徹底にある。まず、推論エンジンの初期化においてコンポーネントの再利用を実現し、初期化オーバーヘッドを97%削減。次に、GPUメモリを自管理バッファとして一括確保し、指針増分方式による割当と解放により、メモリフラグメンテーションをゼロに近づけた。さらに、モデルチェックポイントを共有メモリにキャッシュし、GPUへの転送をマルチスレッド・パイプライン化することで、モデルロード時間を従来並みに維持しながらも、スケーラビリティを確保した。 また、異なる形状のKVキャッシュに対応するため、Slab割当方式を採用。特定のサイズのキャッシュ領域を専用プールとして管理することで、キャッシュのメモリ利用効率を最大化した。 Aegaeonは、現在阿里云のModel Studioでベータ版として稼働中で、10種類のモデルを同時にサポート。この技術により、AIモデルのサービス提供が「専用線」から「高速道路」へと進化する可能性が広がった。今後は、ユーザーが希望するモデルを瞬時に呼び出し、バックエンドの複雑なリソース管理を気にせず利用できる「モデルスーパー」の実現が期待される。

関連リンク