Vorwärtsvorhersage für physikalisches Schlussfolgern

Physikalisches Schlussfolgern erfordert Vorwärtsvorhersage: die Fähigkeit, vorherzusagen, was als Nächstes geschieht, gegeben einen bestimmten Ausgangszustand der Welt. Wir untersuchen die Leistung von modernsten Vorwärtsvorhersagemodellen bei komplexen physikalischen Schlussfolgerungsaufgaben des PHYRE-Benchmarks. Dazu integrieren wir Modelle, die auf objektbasierten oder pixelbasierten Darstellungen der Welt operieren, in einfache physikbasierte Schlussfolgerungsagenten. Wir stellen fest, dass Vorwärtsvorhersagemodelle die Leistung bei physikalischem Schlussfolgern verbessern können, insbesondere bei komplexen Aufgaben mit vielen Objekten. Allerdings zeigen wir auch, dass diese Verbesserungen davon abhängen, dass die Testaufgaben kleine Variationen der Trainingsaufgaben sind, und dass die Verallgemeinerung auf völlig neue Aufgabenvorlagen herausfordernd ist. Überraschenderweise beobachten wir, dass Vorhersagemodelle mit höherer Pixelgenauigkeit nicht zwangsläufig zu einer besseren Leistung beim physikalischen Schlussfolgern führen. Dennoch erreichen unsere besten Modelle eine neue state-of-the-art-Leistung auf dem PHYRE-Benchmark.