NVIDIA Jetson AGX Thor、7倍高速化のGen AI性能を実現へ 最新ソフトウェアでLlama3.3 70Bも88.62トークン/secを達成
NVIDIAは、Jetson AGX Thorプラットフォーム上で生成AIの性能を最大7倍に向上させたと発表した。当初の発売時(2025年8月)からソフトウェアの継続的な最適化により、Llama 3.3 70BやDeepSeek R1 70Bといった大規模モデルの出力トークン速度が大幅に改善。特にvLLMコンテナの最新アップデートにより、同じモデル・同じ量子化設定でも3.5倍の性能向上が実現。さらに、EAGLE-3による推測デコード(speculative decoding)を導入することで、Llama 3.3 70Bで88.62トークン/秒を達成し、発売時比で7倍のスピードアップを実現した。 Jetson AGX Thorは、FP8やW4A16といった最新の量子化形式をサポート。W4A16では700億パラメータを超えるモデルを1デバイスに搭載可能で、複数の大規模モデル同時実行も可能に。FP8は精度の損失が1%未満とほぼ同等の品質を維持しつつ、メモリ使用量を半減し、大規模モデルのオンデバイス実行を可能にする。W4A16は、4ビットの重みと16ビットの活性化を組み合わせ、メモリ効率と高速推論を両立する。精度が求められるタスク(例:コード生成)ではFP8、高速性が優先される場合はW4A16が推奨される。 推測デコードは、小さな「ドラフトモデル」が候補トークンを高速生成し、本体モデルが一度に検証する仕組み。EAGLE-3を活用すると、Llama 3.3 70Bで2.5倍の性能向上が確認された。性能向上の鍵はドラフトモデルの選定と、実際のワークロードに応じたベンチマーク。NVIDIAは、vLLMコンテナを月次で更新し、最新のAIモデル(例:gpt-oss、NVIDIA Nemotronシリーズ)に対応する「デイゼロ」サポートを提供。 開発者は、まず高精度(FP16またはFP8)でモデルの品質を確認し、次にW4A16で量子化を段階的に適用。最終的に、実際の使用シナリオに近い負荷でベンチマークを実施することで、最適なモデルと設定を選び取ることが可能になる。Jetson AGX Thorは、開発者にとって生成AIをエッジで高速かつ効率的に実行するための強力な基盤を提供している。
