Command Palette

Search for a command to run...

2ヶ月前

長時間動画生成のためのコンテキスト混合

Shengqu Cai Ceyuan Yang Lvmin Zhang Yuwei Guo Junfei Xiao et al

長時間動画生成のためのコンテキスト混合

要約

長時間動画生成は本質的に長期間の記憶保持問題である:モデルは長期間にわたって重要な出来事を保持・再取得しなければならず、その過程で情報が崩壊したり、逸脱したりしてはならない。しかし、拡散型トランスフォーマー(diffusion transformers)を用いて長期間の動画を生成しようとすると、自己注意機構(self-attention)の二次時間計算量という根本的な制約に直面する。これにより、長序列に対するメモリと計算が非現実的となり、最適化も困難となる。本研究では、長期間動画生成を内部情報検索タスクとして再定式化し、効果的な長期記憶の検索エンジンとして、シンプルかつ学習可能なスパース注意機構ルーティングモジュール「コンテキストの混合(Mixture of Contexts, MoC)」を提案する。MoCでは、各クエリが動的に情報量の多い複数のコンテキストチャンクに加えて、必須のアンカー(キャプション、局所的な窓)を対象として注意を向ける。因果的ルーティングにより、ループ閉じを防止する。データ量を拡大しつつルーティングを徐々にスパース化することで、モデルは重要度の高い過去の記憶に計算資源を割り当て、数分間にわたるコンテンツにおいても、登場人物の同一性、行動、シーンの整合性を維持する。この検索に基づくアプローチにより、近線形スケーリングが実現され、効率性が副次的に得られる。これにより、実用的な学習と合成が可能となり、数分単位のスケールで記憶と一貫性が自然に出現する。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
長時間動画生成のためのコンテキスト混合 | 論文 | HyperAI超神経