Back to Headlines

Llama 3 70BをGPUメモリ不足で動かせない?Grace Hopperで実現するCPU-GPU統合メモリで大規模LLM推論を加速

16日前

大規模言語モデル(LLM)の推論効率を高めるため、NVIDIAのGrace HopperとGrace Blackwellアーキテクチャが採用するCPU-GPUメモリ共有技術が注目されている。Llama 3 70BやLlama 4 Scout 109Bといったモデルは、FP16でそれぞれ約140GB、218GBのメモリを必要とし、さらに推論時に生成されるキー・バリュー(KV)キャッシュが追加で消費される。特に128kトークンの文脈窓では、1ユーザー分で約40GBのキャッシュが発生し、複数ユーザーでの利用ではGPUの96GBメモリを大きく超える。このため、GPUにモデルを完全にロードしようとすると「Out of Memory(OOM)」エラーが発生する。 しかし、Grace HopperとGrace Blackwellには、NVIDIA NVLink-C2Cという900GB/sの帯域を持つメモリ一貫性接続が搭載されており、CPUとGPUが統合された1つのメモリアドレス空間を共有できる。これにより、GPUがCPUのLPDDRメモリ(最大480GB)に直接アクセスでき、データの明示的コピーなしにメモリを拡張可能となる。この仕組みにより、モデルやデータセットのサイズがGPUメモリの限界を超えていても、実行が可能になる。 実際にNVIDIA GH200 Superchip上でLlama 3 70Bをロードする例では、標準的な方法ではOOMエラーが発生する。しかし、RAPIDS Memory Manager(RMM)を活用し、managed_memory=Trueに設定することで、PyTorchがGPUとCPUの統合メモリ空間を利用できるようになり、メモリ不足を回避できる。これにより、モデルのロードやテキスト生成が正常に実行可能となる。 この技術は、LLMのファインチューニングや科学計算、大規模推論など、メモリ制約が大きな課題となる分野での実用性を飛躍的に高める。今後、モデルがさらに巨大化する中で、CPU-GPU統合メモリアーキテクチャは、AI推論のスケーラビリティを支える基盤技術となるだろう。

Related Links