2ヶ月前

BAD: テキストからモーションへの双方向自己回帰拡散生成

Hosseyni, S. Rohollah ; Rahmani, Ali Ahmad ; Seyedmohammadi, S. Jamal ; Seyedin, Sanaz ; Mohammadi, Arash
BAD: テキストからモーションへの双方向自己回帰拡散生成
要約

自己回帰モデルは因果制約を強制することで逐次依存関係のモデリングに優れていますが、一方的方向性の特性により複雑な双方向パターンを捉えることが困難です。これに対して、マスクベースのモデルは双方向コンテキストを利用し、より豊かな依存関係のモデリングを可能にします。しかし、予測時にトークンの独立性を仮定することが多く、これは逐次依存関係のモデリングを弱めてしまいます。さらに、マスキングや吸収を通じたシーケンスの破壊は不自然な歪みを導入し、学習過程を複雑化させる可能性があります。これらの課題に対処するため、私たちは自己回帰とマスクベースの生成モデルの長所を統合した新しい手法である双方向自己回帰拡散(Bidirectional Autoregressive Diffusion: BAD)を提案します。BADは順列に基づく破壊技術を使用しており、自然なシーケンス構造を保ちつつランダム化された順序で因果制約を強制することで、逐次的な依存関係と双方向的な関係性の両方を効果的に捉えます。包括的な実験結果から、BADがテキストからモーションへの生成において自己回帰モデルおよびマスクベースモデルよりも優れていることが示されており、これはシーケンスモデリングにおける新たな事前学習戦略を示唆しています。BADのコードベースはhttps://github.com/RohollahHS/BADで公開されています。

BAD: テキストからモーションへの双方向自己回帰拡散生成 | 最新論文 | HyperAI超神経