HyperAI
il y a 16 jours

OST-Bench : Évaluation des capacités des MLLMs dans la compréhension en ligne des scènes spatio-temporelles

JingLi Lin, Chenming Zhu, Runsen Xu, Xiaohan Mao, Xihui Liu, Tai Wang, Jiangmiao Pang
OST-Bench : Évaluation des capacités des MLLMs dans la compréhension en ligne des scènes spatio-temporelles
Résumé

Les récentes avancées dans les modèles de langage multimodaux à grande échelle (MLLMs) ont démontré des capacités remarquables en matière d'intégration de la vision et du langage pour un raisonnement complexe. Bien que la plupart des benchmarks existants évaluent les modèles dans des conditions hors ligne avec un ensemble fixe d'entrées préenregistrées, nous présentons OST-Bench, un benchmark conçu pour évaluer la compréhension spatio-temporelle en ligne du point de vue d'un agent explorant activement une scène. L'aspect en ligne souligne la nécessité de traiter et de raisonner sur des observations acquises progressivement, tandis que le composant spatio-temporel exige l'intégration des entrées visuelles actuelles avec la mémoire historique pour soutenir un raisonnement spatial dynamique. OST-Bench reflète mieux les défis de la perception incarnée dans le monde réel.Construit sur une pipeline efficace de collecte de données, OST-Bench comprend 1,4k scènes et 10k paires question-réponse collectées à partir de ScanNet, Matterport3D et ARKitScenes. Nous évaluons plusieurs MLLMs de premier plan sur OST-Bench et constatons qu'ils manquent de performances sur les tâches nécessitant un raisonnement spatio-temporel complexe. Dans le cadre d'une évaluation en ligne, leur précision diminue à mesure que l'horizon d'exploration s'étend et que la mémoire s'accroît. Grâce à une analyse expérimentale supplémentaire, nous identifions des schémas d'erreurs communs entre les modèles et découvrons que tant les exigences de raisonnement spatial basé sur des indices complexes que celles de récupération à long terme de la mémoire entraînent une baisse significative des performances des modèles selon deux axes distincts. Cela met en lumière les principaux défis qui doivent être relevés pour améliorer le raisonnement incarné en ligne.Pour encourager davantage de recherches et de développements dans ce domaine, nos codes, notre dataset et notre benchmark sont disponibles. Notre page de projet est : https://rbler1234.github.io/OSTBench.github.io/