11日前

Snap Video:テキストから動画合成へのスケーラブルな時空間変換器

Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Ekaterina Deyneka, Tsai-Shien Chen, Anil Kag, Yuwei Fang, Aleksei Stoliar, Elisa Ricci, Jian Ren, Sergey Tulyakov
Snap Video:テキストから動画合成へのスケーラブルな時空間変換器
要約

画像生成のための最新モデルは、驚異的な品質と汎用性を示している。これらの利点に惹かれて、研究コミュニティはこれらを動画生成に再利用しようとしている。しかし、動画コンテンツは極めて高い冗長性を有しているため、画像生成モデルの進展を単純に動画生成領域に適用することは、運動の忠実性や視覚的品質を低下させ、スケーラビリティにも悪影響を及ぼすと主張する。本研究では、こうした課題を体系的に解決する「ビデオ最優先型」モデルであるSnap Videoを構築した。その実現のため、まず空間的かつ時間的に冗長な画素を考慮できるように、EDMフレームワークを拡張し、自然に動画生成をサポートする仕組みを構築した。次に、画像生成の基盤を成すU-Netが動画生成においては著しくスケーラビリティが劣り、大きな計算負荷を要することを示した。したがって、U-Netよりも3.31倍高速に学習可能な新しいTransformerベースのアーキテクチャを提案した(推論時では約4.5倍の高速化)。これにより、初めて数十億パラメータを持つテキストから動画生成モデルを効率的に学習可能となり、多数のベンチマークで最先端の結果を達成し、著しく高い品質、時間的に一貫した動き、複雑な運動を再現する動画の生成が可能となった。ユーザースタディーの結果、本モデルは最新の手法と比較して大幅に好まれた。詳細は、https://snap-research.github.io/snapvideo/ にてご確認ください。

Snap Video:テキストから動画合成へのスケーラブルな時空間変換器 | 最新論文 | HyperAI超神経