1ヶ月前
確率的な敵対的ビデオ予測
Alex X. Lee; Richard Zhang; Frederik Ebert; Pieter Abbeel; Chelsea Finn; Sergey Levine

要約
将来何が起こるかを予測する能力には、世界を支配する物理的および因果関係のルールに対する深い理解が必要です。そのようなモデルは、ロボットの計画から表現学習まで、魅力的な応用が数多くあります。しかし、ビデオのフレームのような生の未来観測値を予測することは極めて困難です——問題の曖昧な性質により、単純に設計されたモデルは複数の可能性のある未来を平均化し、一つのぼやけた予測にまとめてしまうことがあります。最近では、この課題に対処するために2つの異なるアプローチが提案されています。(a) 潜在変動変数モデル(latent variational variable models)で、基礎となる確率性を明示的にモデル化する方法と (b) 自然的な画像を生成することを目指す敵対的訓練モデル(adversarially-trained models)があります。しかし、標準的な潜在変数モデルは現実的な結果を生成することが難しく、標準的な敵対的訓練モデルは潜在変数を十分に活用せず、多様な予測を生成できないという問題があります。我々はこれらの異なる手法が実際には補完的であることを示します。両者を組み合わせることで、人間評価者にとってより現実的であり、可能性のある未来の範囲をよりよくカバーする予測が得られます。本研究において提案した手法は、これらの側面で先行研究および同時期に行われた研究よりも優れた性能を発揮しています。