Command Palette
Search for a command to run...
Justin Cui Jie Wu Ming Li Tao Yang Xiaojie Li Rui Wang Andrew Bai Yuanhao Ban Cho-Jui Hsieh

要約
拡散モデル(Diffusion models)は、画像および動画生成において画期的な進展をもたらし、これまでにない高品質な視覚表現を実現した。しかし、トランスフォーマー(Transformer)アーキテクチャに依存するため、特に長時間の動画生成へと拡張する際には計算コストが著しく高くなるという課題がある。近年の研究では、短時間の動画を対象とした双方向教師モデル(bidirectional teachers)から知識蒸留(knowledge distillation)を行うことで、長時間動画生成に対する自己回帰的(autoregressive)アプローチが検討されている。しかしながら、教師モデル自身が長時間の動画を生成できないため、学生モデル(student model)が学習期間を超えて生成を延長する際、連続的な潜在空間における誤差の蓄積により顕著な品質低下が生じる傾向にある。本論文では、長時間動画教師モデルの監視情報や、長時間動画データセットにおける再学習を必要とせずに、長時間動画生成における品質低下を軽減する、シンプルかつ効果的な手法を提案する。本手法の核心は、自己生成された長時間動画からサンプリングされたセグメントを用いて、教師モデルが持つ豊富な知識を学生モデルに導引する点にある。これにより、教師モデルの能力を超えて最大20倍の長さまで動画を拡張しつつ、時間的一貫性を維持できる。従来の手法とは異なり、重複フレームの再計算を回避しつつ、過露出や誤差蓄積といった一般的な問題も防ぐことができる。計算リソースを拡張した場合、本手法は最大4分15秒(99.9%の最大スパン)に達する動画生成が可能となり、ベースモデルの位置埋め込み(position embedding)がサポートする最大長さに近づき、基準モデル(baseline model)の50倍以上も長くなる。標準ベンチマークおよび本研究で提案する改良型ベンチマークにおける実験結果から、本手法は忠実性(fidelity)および一貫性(consistency)の両面で、従来手法を大きく上回ることが明らかになった。本研究の長時間動画デモは、以下のURLで公開されている:https://self-forcing-plus-plus.github.io/