Google、AI推論インフラを刷新 Ironwood TPUと新アーキテクチャで推論性能を1000兆トークン/月へ
グーグルがAIインフェレンスのスケーラビリティと性能の限界に挑む最新技術を、AI Infra Summitで発表した。同社はAIの「インフェレンス(推論)」処理量が急拡大しており、2024年4月の月間1兆トークンから2025年8月には1,460兆トークンにまで達する見通しと報告した。これは1年間で約49.5倍の成長であり、AIモデルの実行に必要な計算リソースの膨張を示している。 このインフェレンス負荷を支えるのが、グーグルが独自開発するTPU(Tensor Processing Unit)の最新世代「Ironwood TPU v7p」だ。これはTrillium TPU v6eと比べ、ピーク性能が5倍、HBMメモリ容量が6倍に向上。1つのクラスタで最大9,216個のTPUを接続可能で、合計1.77PBのHBMメモリを搭載。これにより、NVIDIAのBlackwell GPUを搭載したシステムと比べて圧倒的なスケーラビリティを実現。さらに、独自開発の光回路スイッチ(OCS)により、TPUの故障時でも再起動せずに自動的に回復可能で、運用の安定性を大幅に向上。 また、グーグルは液体冷却技術の進化も進めており、2024年時点で1ギガワットの液体冷却能力を保有。これは当時世界最多で、TPUだけでなくGPUにも拡張予定。同社は冷却装置の仕様を2024年内にOpen Compute Project(OCP)に公開する計画だ。 ソフトウェア面では、TPU上でPyTorchのネイティブサポートを導入。AI開発者向けの「GKE Inference Gateway」も新登場。AIに最適化された負荷分散により、推論リクエストの待ち時間を削減。また、vLLMを基盤とした推論スタックに、新開発のフラッシュメモリキャッシュ「Anywhere Cache」を組み込み、読み取り遅延を最大96%削減。さらに、推論処理の「プレフィル(文脈生成)」と「デコード(応答生成)」を分離し、それぞれに最適化されたハードウェアで処理する「スペキュレーティブデコード」技術を採用。これにより、Geminiモデルのエネルギー消費を約33倍削減したと報告。 これらの技術により、Google Cloudの顧客は推論遅延を最大96%短縮、スループットを40%向上、トークンあたりコストを30%削減できるとしている。グーグルは自社のTPUだけでなく、NVIDIAのBlackwell GPUを搭載したインスタンス(G4、A4、A4X)も提供。また、NVIDIAの推論OS「Dynamo」もGoogle Cloudで利用可能に。ただし、グーグル独自の推論スタックがGPUに移植されているかどうかは不明。 グーグルは、AIインフェレンスの「スケール」と「効率」を両立させるために、ハードウェア、冷却、ソフトウェア、ネットワークの全層で革新を続けている。この取り組みは、AIを社会に広く普及させるためのインフラ基盤の再定義と言える。