Visual Reasoning On Phyre 1B Cross
Métriques
AUCCESS
Résultats
Résultats de performance de divers modèles sur ce benchmark
Tableau comparatif
Nom du modèle | AUCCESS |
---|---|
learning-long-term-visual-dynamics-with | 42.2 |
forward-prediction-for-physical-reasoning | 40.3 |
physical-reasoning-using-dynamics-aware | 39.9 |
phyre-a-new-benchmark-for-physical-reasoning | 36.8 |