HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 3 jours

L’extension de l’intelligence spatiale grâce aux modèles fondamentaux multimodaux

L’extension de l’intelligence spatiale grâce aux modèles fondamentaux multimodaux

Résumé

Malgré les progrès remarquables réalisés, les modèles fondamentaux multimodaux présentent encore des déficiences surprenantes en matière d’intelligence spatiale. Dans ce travail, nous explorons l’augmentation à grande échelle des modèles fondamentaux multimodaux afin de développer une intelligence spatiale au sein de la famille SenseNova-SI, fondée sur des architectures multimodales établies, notamment des modèles de compréhension visuelle (tels que Qwen3-VL et InternVL3) et des modèles unifiés de compréhension et de génération (tels que Bagel). Nous adoptons une approche rigoureuse pour construire un modèle performant et robuste en intelligence spatiale, en curant systématiquement SenseNova-SI-8M : huit millions d’échantillons de données diversifiés, organisés selon une taxonomie rigoureuse des capacités spatiales. SenseNova-SI atteint des performances sans précédent sur une large gamme de benchmarks d’intelligence spatiale : 68,7 % sur VSI-Bench, 43,3 % sur MMSI, 85,6 % sur MindCube, 54,6 % sur ViewSpatial et 50,1 % sur SITE, tout en maintenant une excellente compréhension multimodale générale (par exemple, 84,9 % sur MMBench-En). Plus important encore, nous analysons l’impact de l’augmentation des données, discutons des premiers signes d’émergence de capacités de généralisation grâce à l’entraînement sur des données diversifiées, examinons le risque de surajustement et des raccourcis linguistiques, présentons une étude préliminaire sur le raisonnement en chaîne spatiale (spatial chain-of-thought), et validons le potentiel d’applications futures. SenseNova-SI est un projet en cours, et ce rapport sera régulièrement mis à jour. Tous les nouveaux modèles fondamentaux multimodaux entraînés seront publiés librement afin de favoriser la recherche ultérieure dans cette direction.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
L’extension de l’intelligence spatiale grâce aux modèles fondamentaux multimodaux | Articles de recherche | HyperAI