Command Palette
Search for a command to run...
Ensemble De Données De Référence OST-Bench Pour La Compréhension De Scènes spatio-temporelles
OST-Bench, publié en 2025 par le Laboratoire d'intelligence artificielle de Shanghai en collaboration avec l'Université Jiao Tong de Shanghai, l'Université de Hong Kong et d'autres institutions, est un ensemble de données utilisé pour évaluer les capacités de compréhension spatio-temporelle en ligne des grands modèles multimodaux. L'article de recherche associé est intitulé « OST-Bench : Évaluation des capacités des MLLM en compréhension spatio-temporelle de scènes en ligneL'objectif est d'évaluer les capacités de compréhension globale des grands modèles multimodaux dans les tâches d'exploration de scènes en ligne, de modélisation d'informations visibles et de raisonnement spatio-temporel.
Cet ensemble de données comprend environ 1 400 scènes 3D d'intérieur réelles, générant près de 10 000 exemples de questions-réponses temporelles à plusieurs tours, basés sur le processus d'exploration de scènes. Les scènes proviennent de ScanNet, ARKitScenes et Matterport3D, et sont traitées à l'aide d'annotations 3D unifiées d'objets et sémantiques. Une trajectoire d'exploration continue du point de vue est construite au sein de chaque scène, et le contenu des questions-réponses correspondantes est généré à partir des informations visibles accumulées. La conception de la tâche couvre trois axes de compréhension principaux : l'état de l'agent, les informations visibles et les relations spatiales agent-objet. Ces axes sont déclinés en 15 sous-tâches présentées sous forme de dialogue à plusieurs tours, exigeant du modèle un raisonnement spatio-temporel en temps réel basé sur les observations historiques et le champ de vision actuel.

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.