9日前
大規模な動画予測のためのグリーディ階層型変分オートエンコーダー
Bohan Wu, Suraj Nair, Roberto Martin-Martin, Li Fei-Fei, Chelsea Finn

要約
多様なシーンに一般化可能な動画予測モデルは、ロボットなどの知能エージェントがモデルを用いた計画により多様なタスクを実行可能にする。しかし、既存の動画予測モデルは小規模なデータセットでは有望な結果を示しているものの、大規模かつ多様なデータセットで学習する際には重度のアンダーフィッティングを引き起こす。このアンダーフィッティングの課題に対処するため、我々はまず、大規模な動画予測モデルの訓練が、GPUやTPUのメモリ制約によってしばしばボトルネックに陥ることに着目した。一方で、深層階層的潜在変数モデルは、未来の観測値の多層的確率性を捉えることで、より高品質な予測を実現可能であるが、このようなモデルのエンドツーエンド最適化は著しく困難である。本研究の鍵となる洞察は、階層的オートエンコーダーをグリーディかつモジュール化して最適化することで、大規模動画予測におけるメモリ制約と最適化の課題を同時に解決できることである。そこで、階層的オートエンコーダーの各層をグリーディに訓練することで高忠実度な動画予測を学習する「グリーディ階層的変分オートエンコーダー(GHVAEs)」を提案する。最先端モデルと比較して、GHVAEsは4つの動画データセットにおいて予測性能で17〜55%の向上を達成し、実機ロボットタスクでは35〜40%高い成功率を示すとともに、モジュールを単に追加するだけで性能を単調に改善可能である。