HyperAI超神経
16日前

VMoBA: ブロック混合注意機構を用いたビデオ拡散モデル

Jianzong Wu, Liang Hou, Haotian Yang, Xin Tao, Ye Tian, Pengfei Wan, Di Zhang, Yunhai Tong
VMoBA: ブロック混合注意機構を用いたビデオ拡散モデル
要約

完全な注意メカニズムの二次複雑性は、長時間・高解像度のビデオを生成することを目指すビデオ拡散モデル(VDMs)にとって大きなボトルネックとなっています。様々な疎な注意方法が提案されてきましたが、多くの方法は学習不要の推論加速器として設計されているか、またはネイティブで学習された場合にビデオデータに固有の空間時系列特性を最適に捉えることができません。本論文では、VDMsに特化して設計された新しい疎な注意メカニズムであるVideo Mixture of Block Attention(VMoBA)を紹介します。事前学習済みのビデオトランスフォーマーにおける注意パターンの詳細分析から、強い空間時系列局所性、異なるクエリ的重要性、およびヘッドごとの集中レベルが明らかになりました。これに基づき、VMoBAは元のMoBAフレームワークを以下の3つの重要な改良により強化しています:(1) 層ごとの再帰的なブロック分割スキーム(1D-2D-3D)を導入し、多様な空間時系列注意パターンに動的に適応し効率を向上させる;(2) グローバルなブロック選択を行い、全注意ヘッドにおいて最も显著なクエリ-キー間のブロック相互作用を優先する;(3) 閾値ベースのブロック選択により、累積類似度に基づいて動的に注目すべきブロック数を決定する。広範囲にわたる実験結果から、VMoBAは長いシーケンスでのVDMsの学習を大幅に加速し、2.92倍のFLOPsと1.48倍のレイテンシ短縮を達成しながら、完全な注意メカニズムと同等かそれ以上の生成品質を得ることが示されました。さらに、VMoBAは学習不要の推論でも競争力のある性能を発揮し、高解像度ビデオ生成において2.40倍のFLOPsと1.35倍のレイテンシ短縮を提供します。