Visual Reasoning On Phyre 1B Cross
Metriken
AUCCESS
Ergebnisse
Leistungsergebnisse verschiedener Modelle zu diesem Benchmark
Vergleichstabelle
Modellname | AUCCESS |
---|---|
learning-long-term-visual-dynamics-with | 42.2 |
forward-prediction-for-physical-reasoning | 40.3 |
physical-reasoning-using-dynamics-aware | 39.9 |
phyre-a-new-benchmark-for-physical-reasoning | 36.8 |