HyperAIHyperAI

Command Palette

Search for a command to run...

独自の相関を保持する:動画拡散モデルにおけるノイズ事前分布

Songwei Ge Seungjun Nah Guilin Liu Tyler Poon Andrew Tao Bryan Catanzaro David Jacobs Jia-Bin Huang Ming-Yu Liu Yogesh Balaji

概要

拡散モデルを用いた高品質な画像生成において著しい進展が見られる一方で、写実的かつ時間的に一貫性のあるアニメーションフレームの連続生成は依然として初期段階にあります。画像生成に用いられる数十億規模の汎用データセットは既に存在しますが、同規模の動画データを収集することは依然困難です。また、動画拡散モデルの学習は、画像用モデルと比べて計算コストがはるかに高くなります。本研究では、動画生成タスクに対する実用的な解決策として、事前学習済みの画像拡散モデルを動画データでファインチューニングするアプローチを検討します。我々は、動画拡散モデルにおいて、画像用のノイズ事前分布を単純に動画用に拡張する手法が最適な性能を発揮しないことを発見しました。そこで、慎重に設計された動画用ノイズ事前分布を導入したところ、著しい性能向上が得られました。広範な実験的検証の結果、本研究で提案するモデル「Preserve Your Own Correlation(PYoCo)」は、UCF-101およびMSR-VTTベンチマークにおいて、ゼロショットテキストから動画生成の最新技術(SOTA)を達成しました。さらに、小規模なUCF-101ベンチマークにおいても、従来手法と比べてモデルサイズを10分の1に削減しつつ、はるかに少ない計算量で、SOTAの動画生成品質を実現しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています