HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA、TensorRT LLMに自動最適化デプロイ機能「AutoDeploy」を追加へ

NVIDIAは、大規模言語モデル(LLM)の推論最適化を自動化する新機能「TensorRT LLM AutoDeploy」のベータ版を発表した。従来、新しいモデルアーキテクチャを高パフォーマンスでデプロイするには、KVキャッシュ管理やGPU間の重みシャーディング、カーネル融合などの手動最適化が必須で、開発に時間がかかっていた。AutoDeployは、PyTorchで作成されたオフザシェルモデルを自動的に最適化グラフに変換することで、こうした手作業を大幅に削減する。モデル開発者は一度だけPyTorchでモデルを定義し、推論最適化の詳細はコンパイラとランタイムに任せられる。 AutoDeployは、Hugging Faceのモデルを入力として受け取り、torch.exportで標準化された計算グラフを取得。その後、アテンション、MoE(混合専門家)、RoPE、状態空間モデル(SSM)などの共通構成要素を一貫したカスタム演算子として正規化。これにより、モデルの構造を一貫して扱い、後続の最適化(カーネル選択、融合、シャーディング)を自動で実施。特に、複数のアテンションタイプ(ソフトマックス、線形、Mamba2など)を組み合わせたハイブリッドモデルでも、手動での再実装なしに迅速にサポート可能。 NVIDIAの「Nemotron 3 Nano」や「Nemotron-Flash」の導入事例では、手動最適化に数週間かかっていたプロセスが、AutoDeployにより数日で完了。単一のNVIDIA Blackwell DGX B200 GPUで、最大350トークン/秒のスループットを達成。Nemotron-Flash 3Bは、同サイズ帯で広く使われるQwen2.5 3Bを上回る性能を実現。このように、新規研究モデルや急速に進化するオープンソースモデルにも即時対応できる。 AutoDeployは、コンパイラ駆動のワークフローを実現し、モデル設計と推論最適化の分離を可能に。開発者はモデルの本質に集中でき、実行時のレイテンシやスループットの最適化はシステムが担う。TensorRT LLMのランタイム機能(スペキュレーティブデコード、チャンク化プリフィル、キャッシュ管理など)も自動統合される。 この技術により、モデルのリリースから本番運用までの時間が劇的に短縮され、多様なアーキテクチャに迅速かつ高効率に対応できる。NVIDIAは、AutoDeployのさらなる進化を進め、開発者コミュニティの参加を呼びかけている。

関連リンク