8日前

大規模データ上の変換ベースの敵対的動画予測

Pauline Luc, Aidan Clark, Sander Dieleman, Diego de Las Casas, Yotam Doron, Albin Cassirer, Karen Simonyan
大規模データ上の変換ベースの敵対的動画予測
要約

近年の敵対的生成モデルに関する革新により、現実世界の複雑なビデオデータセットに対しても高品質な動画サンプルを生成できるモデルが実現された。本研究では、与えられたビデオフレームの時系列をもとに、将来の妥当なフレーム系列を生成する「動画予測」のタスクに焦点を当てる。まず、識別器の分解構造について体系的な実証的研究を行い、従来の手法よりも高速な収束と優れた性能を達成する新たなアーキテクチャを提案する。次に、生成器における再帰ユニットの構造を分析し、予測された運動様の特徴に基づいて過去の隠れ状態を変換し、奥行き遮蔽(occlusion)の処理やシーン変化、その他の複雑な挙動に対応するための精緻化を行う新しい再帰ユニットを提案する。我々は、この再帰ユニットが従来の設計を一貫して上回ることを示す。最終的なモデルにより、大規模なKinetics-600データセット上で、テストセットのFrechet Video Distance(FVD)が従来の69.2から25.7まで改善され、画期的な性能向上を達成した。

大規模データ上の変換ベースの敵対的動画予測 | 最新論文 | HyperAI超神経