VSI-Bench, Test De Référence En Intelligence Spatiale Visuelle
Date
Taille
URL de publication
VSI-Bench (Visual-Spatial Intelligence Benchmark) est un ensemble de tests de référence d'intelligence visuo-spatiale lancé par Fei-Fei Li, Sai-Ning Xie et leur équipe de recherche en 2024. Il vise à évaluer la capacité des grands modèles de langage multimodaux (MLLM) en matière de cognition et de compréhension spatiales. Les résultats pertinents de l'article sont «Penser dans l'espace : comment les grands modèles linguistiques multimodaux voient, se souviennent et se rappellent des espacesL'ensemble de données contient plus de 5 000 paires de questions-réponses, couvrant près de 290 vidéos de scènes intérieures réelles, impliquant divers environnements tels que des résidences, des bureaux et des usines, et couvrant de multiples problématiques telles que la reconnaissance d'objets, la relation de position et la prédiction d'actions. Cette structure de données diversifiée permet non seulement de former des modèles plus robustes, mais fournit également aux développeurs de riches ressources pour la vérification et l'optimisation des algorithmes.
