13日前
長期視覚ダイナミクスの学習における領域提案相互作用ネットワーク
Haozhi Qi, Xiaolong Wang, Deepak Pathak, Yi Ma, Jitendra Malik

要約
長期的な動的モデルの学習は、物理的常識を理解する上で鍵となる。現存する視覚入力からの動的モデル学習アプローチの多くは、短期間のモデルを用いた高速な再計画に依存することで、長期予測を回避している。しかし、これによりモデルの精度が極めて高い必要があり、また、エージェントが各ステップで継続的にフィードバックを得て行動を取れるタスクに限定されてしまう。本論文では、視覚認識タスクにおける成功事例から着想を得て、長距離にわたる物体間および物体-環境間の相互作用を捉えられる物体表現を構築することを目指す。そのために、潜在的な領域提案特徴空間上で各物体の軌道を推論する「領域提案相互作用ネットワーク(Region Proposal Interaction Networks; RPIN)」を提案する。シンプルでありながら効果的な物体表現により、本手法は予測精度および下流タスクの計画能力において、従来手法を大きく上回り、また新しい環境への汎化性能も優れている。コード、事前学習済みモデル、および追加の可視化結果は、https://haozhi.io/RPIN にて公開されている。