13日前
ダイナミクスに配慮したモデルを用いた物理的推論
Eltayeb Ahmed, Anton Bakhtin, Laurens van der Maaten, Rohit Girdhar

要約
物理的推論タスクを解くための一般的なアプローチとして、例題タスク上で価値学習者(value learner)を訓練する方法が挙げられる。このアプローチの限界は、環境のロールアウト(展開)における最終状態に割り当てられた報酬値のみから物体の動的挙動を学習しなければならない点にある。本研究では、この限界を克服するために、報酬値に物体の動的挙動に関する自己教師信号を追加することを目的としている。具体的には、環境の2つのロールアウト間の類似性をモデルが特徴づけるように学習させるとともに、推論タスクの結果を予測するように学習する。この類似性は、2つのロールアウトにおける物体の軌道間の距離尺度として定義できる。あるいは、対照学習(contrastive formulation)を用いてピクセルレベルから直接学習することも可能である。実験的に、このアプローチが物理的推論のベンチマークであるPHYRE(Bakhtin他, 2019)において顕著な性能向上をもたらすことを確認した。これにより、新たな最先端(state-of-the-art)の成績が確立された。