Command Palette
Search for a command to run...
L’extension de l’intelligence spatiale grâce aux modèles fondamentaux multimodaux

Résumé
Malgré les progrès remarquables réalisés, les modèles fondamentaux multimodaux présentent encore des déficiences surprenantes en matière d’intelligence spatiale. Dans ce travail, nous explorons l’augmentation à grande échelle des modèles fondamentaux multimodaux afin de développer une intelligence spatiale au sein de la famille SenseNova-SI, fondée sur des architectures multimodales établies, notamment des modèles de compréhension visuelle (tels que Qwen3-VL et InternVL3) et des modèles unifiés de compréhension et de génération (tels que Bagel). Nous adoptons une approche rigoureuse pour construire un modèle performant et robuste en intelligence spatiale, en curant systématiquement SenseNova-SI-8M : huit millions d’échantillons de données diversifiés, organisés selon une taxonomie rigoureuse des capacités spatiales. SenseNova-SI atteint des performances sans précédent sur une large gamme de benchmarks d’intelligence spatiale : 68,7 % sur VSI-Bench, 43,3 % sur MMSI, 85,6 % sur MindCube, 54,6 % sur ViewSpatial et 50,1 % sur SITE, tout en maintenant une excellente compréhension multimodale générale (par exemple, 84,9 % sur MMBench-En). Plus important encore, nous analysons l’impact de l’augmentation des données, discutons des premiers signes d’émergence de capacités de généralisation grâce à l’entraînement sur des données diversifiées, examinons le risque de surajustement et des raccourcis linguistiques, présentons une étude préliminaire sur le raisonnement en chaîne spatiale (spatial chain-of-thought), et validons le potentiel d’applications futures. SenseNova-SI est un projet en cours, et ce rapport sera régulièrement mis à jour. Tous les nouveaux modèles fondamentaux multimodaux entraînés seront publiés librement afin de favoriser la recherche ultérieure dans cette direction.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.