HyperAI

NVIDIAが発表した「Blackwell Ultra」GPUは、AIファクトリー時代の基盤を支える次世代チップとして、計算性能、メモリ容量、効率性の面で大幅な飛躍を実現した。TSMCの4NPプロセスで製造され、2080億個のトランジスタを搭載する同チップは、Hopperシリーズ比で2.6倍の集積度を達成しながらも、CUDAプログラミングモデルを維持しており、開発者にとっての移行コストを抑えた。特徴的な「デュアルレチクル設計」により、2つのチップを独自の高帯域インターコネクト「NV-HBI」で接続し、10TB/sの帯域を実現。これにより、1つのGPUとして統合的に動作し、スケーラビリティと性能を両立している。核心となるのは第5世代Tensorコアと、新開発の4ビット浮動小数点形式「NVFP4」。NVFP4はFP8と比較してメモリ使用量を約8倍削減しつつ、精度差が1％未満と高い正確性を実現。Blackwell UltraではNVFP4性能が15ペタFLOPSに達し、Hopper H100比で7.5倍の性能向上を実現。また、Transformerモデルの「アテンション層」処理を加速するSFU（特殊関数ユニット）の性能が2倍になり、長文処理や推論の遅延を大幅に低減。これにより、大規模言語モデルやマルチモーダルAIのリアルタイム処理が可能になった。メモリ面では、HBM3Eを288GB搭載し、H100比で3.6倍の容量を実現。これにより、トレイリオンパラメータ級の巨大モデルをオンチップで保持でき、KVキャッシュのオフロードなしに長文コンテキストを処理可能。NVLink 5とPCIe Gen6による高帯域接続により、GPU間やCPU-GPU間の通信も高速化され、スケールアップしたAIファクトリーアーキテクチャの実現を支えている。さらに、NVIDIA Grace Blackwell Ultra SuperchipではCPUとGPUをNVLink-C2Cで接続し、1TBの統合メモリを実現。これにより、データセンター全体の効率（TPS/MW）とユーザー体験（TPS/ユーザー）の両面で飛躍的な改善が見込まれる。AI開発の現場では、グーグルやマイクロソフトなどの大手企業が、Blackwell Ultraを基盤にしたAIインフラを展開中で、実用化されたAIファクトリーの時代が到来している。 Blackwell Ultraは、単なる性能向上にとどまらず、開発の継続性、セキュリティ、運用の容易さも重視。CUDA互換性を維持しつつ、AIの本格的導入を可能にする画期的なチップとして、2025年以降のAIインフラの中心に位置づけられている。

NVIDIA Blackwell Ultra：AIファクトリー時代を支える次世代GPUの全貌

Related Links