
要約
ビデオの統計的な複雑さ、内在する確率性の高さ、そしてデータ量の多さにより、自然なビデオの生成は依然として難題となっています。最先端のビデオ生成モデルでは、これらの課題に対処するために、しばしば複雑で通常はビデオ特有のニューラルネットワークアーキテクチャ、潜在変数モデル、敵対的訓練などの様々な手法を組み合わせることが試みられています。しかし、これらのアプローチはしばしば高い複雑さにもかかわらず、狭い領域以外での高品質なビデオ継続生成において未だ不足しており、忠実度に苦戦することも少なくありません。それに対して、我々は概念的に単純な自己注意機構(self-attention mechanism)に基づく三次元自己回帰型ビデオ生成モデルが、人気のあるベンチマークデータセットにおいて複数の指標で競争力のある結果を達成し、高い忠実度と現実感のある継続を生成できることを示しています。また、カメラの動きや複雑な物体間相互作用、多様な人間の動きなどといった現象を含む大規模な行動認識データセットであるKinetics(キネティックス)上のYouTube動画でモデルを訓練した結果も提示します。これらの現象の一貫したモデリングはまだ達成されていませんが、我々の結果にはたまに現実的な継続が含まれており、Kineticsのような比較的複雑かつ大規模なデータセットに関するさらなる研究を促進することを期待しています。