6ヶ月前

概要

次に何が起こるかを予測できるエージェントは、追加の訓練なしに計画を通じて多様なタスクを実行できる。さらに、このようなエージェントは現実世界の複雑なダイナミクスを内部的に表現可能であり、さまざまな視覚認識タスクに有用な表現を獲得できる。その結果、観測された過去と、可能であれば将来の行動を条件として動画の将来フレームを予測するというタスクは、近年の多くの進展にもかかわらず、依然として極めて挑戦的な課題となっている。既存の動画予測モデルは、単純な狭義のベンチマークでは有望な結果を示しているが、より複雑なダイナミクスや広範なドメインを含む現実世界のデータセットでは、低品質な予測を生成してしまう。近年の研究では、訓練データに対するアンダーフィット（過小適合）が低品質な予測の主な原因の一つであるという証拠が蓄積されている。本論文では、現在の動画モデルにおけるパラメータの非効率な使用がアンダーフィットの主な原因であると主張する。そこで、現在の最先端モデルと同等のパラメータ数を有しながら、一般的なベンチマークにおいて著しいオーバーフィット（過適合）を実現できる新しいアーキテクチャ、FitVidを提案する。我々はオーバーフィットの影響を分析し、訓練データの繰り返しによって高品質な出力を生成するといった予期せぬ結果が生じ得ること、および既存の画像増強技術を用いることでその影響を軽減できることを示す。その結果、FitVidは4つの異なる動画予測ベンチマーク、4つの異なる評価指標において、現在の最先端モデルを上回る性能を達成した。

ソースPDF