NeMo AutoModelでTransformers微調整を加速
NVIDIAは、HuggingFace Transformers v5の最新機能を活用したオープンソースライブラリNeMo AutoModelを公開した。本ライブラリは、Mixture-of-Expertsアーキテクチャのファインチューニングにおける計算効率とメモリ効率を大幅に向上させることを目的としている。 Transformers v5ではExpert backendsや動的重み読み込み、分散実行基盤が標準サポートされた。NeMo AutoModelはこの基盤の上にExpert Parallelism、DeepEPによる fused all-to-all 通信、TransformerEngineカーネルを搭載し、既存のコード変更ゼロで導入可能である。インポート文を1行変更するだけで、from_pretrained関数を通じて高性能なモデルインスタンスが利用可能になる。 ベンチマーク結果によると、Qwen3-30B-A3BやNemotron 3 Nano 30B-A3Bなどの30B規模MoEモデルにおいて、純正のTransformers v5と比較して学習スループットが3.4から3.7倍向上し、ピークGPUメモリ使用量が29から32パーセント削減された。Expert Parallelismにより専門家ノードの重みがGPU間に分散されメモリ負荷が軽減され、DeepEPがルーティング通信と計算を融合させてオーバーヘッドを解消したことが主な要因である。また、TransformerEngineの最適化カーネルがAttentionや線形層の処理を加速している。 大規模モデルでは16ノードのH100クラスターを用いたNemotron 3 Ultra 550B A55Bのフルファインチューニングに成功した。Transformers v5のみの構成ではメモリ不足で実行不能だった規模でも、Expert Parallelismにより学習を完遂している。 NeMo AutoModelは標準的なHuggingFace safetensors形式でチェックポイントを保存するため、vLLMやSGLangなどの推論フレームワークとの互換性を維持する。ソースコード、設定ファイル、ベンチマークスクリプトはNeMo AutoModelの公式リポジトリで公開されており、オープンAIコミュニティにおける大規模MoEモデルの開発・最適化を促進する。
