HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 16 jours

Affinage spatial visuel

Affinage spatial visuel

Résumé

La capture des relations spatiales à partir d’entrées visuelles constitue une pierre angulaire de l’intelligence générale humaine. Plusieurs études antérieures ont cherché à améliorer la conscience spatiale des modèles vision-langage (VLM) en ajoutant des encodeurs experts supplémentaires, ce qui entraîne un surcroît de charge computationnelle et nuit souvent aux capacités générales. Pour renforcer les capacités spatiales dans des architectures générales, nous introduisons Visual Spatial Tuning (VST), un cadre complet visant à développer chez les VLM des compétences visuo-spatiales humaines, allant de la perception spatiale au raisonnement. Nous proposons tout d’abord d’améliorer la perception spatiale des VLM en construisant un grand jeu de données, baptisé VST-P, comprenant 4,1 millions d’échantillons couvrant 19 compétences à travers des vues uniques, plusieurs images et des vidéos. Ensuite, nous présentons VST-R, un jeu de données soigneusement sélectionné comprenant 135 000 échantillons, conçu pour guider les modèles dans le raisonnement spatial. En particulier, nous mettons en œuvre une pipeline d’entraînement progressive : une fine-tuning supervisé pour établir une base de connaissances spatiales, suivi d’un apprentissage par renforcement afin d’affiner davantage les capacités de raisonnement spatial. Sans nuire aux capacités générales, le cadre proposé VST obtient de manière cohérente des résultats de pointe sur plusieurs benchmarks spatiaux, notamment 34,8 % sur MMSI-Bench et 61,2 % sur VSIBench. Il apparaît ainsi que les modèles vision-langage-action peuvent être significativement améliorés grâce au paradigme de réglage spatial proposé, ouvrant la voie à une intelligence artificielle plus ancrée dans le réel.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Affinage spatial visuel | Articles de recherche | HyperAI