ラジアルアテンションが映像拡散モデルのコストを4.4倍削減しながら品質を維持する方法
Radial Attentionが映像生成のコストを4.4倍削減しながら品質を維持 映像ディフュージョンモデルと計算の課題 ディフュージョンモデルは、画像合成での成功を基に高品質で連続的な映像生成に大きな進歩を遂げています。しかし、映像では時間軸を追加することで計算量が大幅に増加します。特に自己注意機構(self-attention)はシーケンス長に比例して効率が低下し、これは長尺映像の生成において特に問題となるため、効果的なトレーニングや推論が困難になっています。既存の手法では、パワーアテンションやスパースビデオジェネレーター(Sparse VideoGen)などで注目ヘッドの分類や線形注意の導入が試みられていますが、精度や汎化能力の面で課題があります。 映像合成における注意メカニズムの進化 初期の映像モデルは2Dアーキテクチャをベースに時間を扱うための要素を取り入れていました。しかし、新型のモデルであるDiTやLatteでは、空間-時間的な注意機構が改良され、より高度な映像生成が可能になりました。3D密集型注意は最高性能を達成していますが、映像の長さが増すと計算コストが急速に上昇し、長尺映像の生成は費用がかかるという問題があります。これに対処するために、ステップタイム蒸留、量子化、スパース注意などが提案されていますが、映像データの特有の構造が見落とされる傾向があります。 スパティアルテンポラルエネルギー衰減とRadial Attention MIT、NVIDIA、プリンストン大学、UCバークレー、スタンフォード大学、First Intelligenceの研究者は、映像ディフュージョンモデル内で注意スコアが空間や時間的な距離とともに減少する「スパティアルテンポラルエネルギーディシエ」現象を発見しました。この現象を模倣した新規スパース注意機構であるRadial Attentionを提案し、O(n log n)の複雑さを持つ効率的なアプローチとしています。この機構は、トークンが主要に近傍トークンに注意を払う静的なマスクを使用し、時間とともに注意ウィンドウが縮小することで、事前学習済みモデルを最大4倍長い映像を生成し、訓練コストを4.4倍削減し、かつ推論時間を3.7倍短縮することができます。 エネルギーディシエに基づくスパース注意 Radial Attentionの核心は、映像モデルにおける注意スコアが空間と時間的な距離が増すにつれて減少することです。この原理に基づき、計算を注意が弱い場所で戦略的に削減します。Exponential Decayを用いたスパース注意マスクが空間と時間的な方向で逐次的に薄まることで、最も relevancy な対話を維持しつつ、計算量を大幅に削減します。この結果、密集型注意よりも高速且つ効率的な処理が可能になります。またLoRAアダプターによる最小限の微調整があれば、事前学習済みモデルを長時間映像の生成に適用できます。 主要なディフュージョンモデルでの評価 Radial AttentionはMochi 1、HunyuanVideo、Wan2.1の3つの最先端テキストから映像へのディフュージョンモデルで評価されました。既存のスパース注意基準(SVG、PowerAttention)と比較して、パーシャル品質の向上と Significant コンピュテーシナルガインが確認されました。最長4倍のビデオ長でも、推論時間が3.7倍速くなり、訓練コストが4.4倍低減する一方で品質を維持できます。LoRAを用いた微調整は、特定のケースでフル微調整を上回る性能を示しています。 結論:効率的でスケーラブルな長時間映像生成 要約すると、Radial Attentionは、スパティアルテンポラルエネルギーディシエという現象に着想を得た、長時間映像生成のための効率的なスパース注意機構です。静的な注意パターンと逐次的に縮小するウィンドウを用いて1.9倍の高速化を達成し、最大4倍の映像長をサポートします。LoRAベースの軽量微調整により、訓練および推論コストを大幅に削減しながら、複数の最先端ディフュージョンモデルでの映像品質を保つことができます。 この研究について詳しくは、【Paper】、【GitHub Page】を参照ください。プロジェクトの研究者に敬意を表しつつ、当メディアをTwitter、YouTube、Spotifyなどでフォローし、ML SubRedditにも参加し、Newsletterにも登録をお願いします。