
要約
物理的推論には、初期の世界状態から将来の出来事を予測する「前向き予測(forward prediction)」の能力が求められる。本研究では、PHYREベンチマークにおける複雑な物理的推論タスクにおいて、最先端の前向き予測モデルの性能を検証した。具体的には、世界のオブジェクト表現またはピクセルベース表現を処理するモデルを、単純な物理的推論エージェントに組み込む手法を採用した。その結果、前向き予測モデルは、多数のオブジェクトを含む複雑なタスクにおいて特に物理的推論性能の向上に寄与することが明らかになった。しかし、同時に、その改善効果は、テストタスクが訓練タスクの小さな変形に限られることが判明し、まったく新しいタスクテンプレートへの一般化は依然として困難であることも明らかになった。驚くべきことに、ピクセルレベルの精度が高い前向き予測モデルが必ずしも優れた物理的推論性能をもたらすわけではないことも観察された。それでも、本研究で得られた最良のモデルは、PHYREベンチマークにおいて新たな最先端性能を達成した。