SoFar : Orientation Fondée sur le Langage pour Connecter le Raisonnement Spatial et la Manipulation d'Objets

L’intelligence spatiale constitue un élément fondamental de l’IA incarnée, permettant aux robots de comprendre et d’interagir efficacement avec leur environnement. Bien que les avancées récentes aient amélioré la capacité des modèles visuels-langagiers (VLM) à percevoir la localisation des objets ainsi que leurs relations positionnelles, ils demeurent incapables de comprendre précisément les orientations des objets — une exigence clé pour les tâches impliquant des manipulations de précision. Pour surmonter cette limitation, il est nécessaire non seulement de recourir au raisonnement géométrique, mais aussi de disposer d’une représentation expressive et intuitive de l’orientation. Dans ce contexte, nous proposons que le langage naturel offre un espace de représentation plus flexible que les repères canoniques, le rendant particulièrement adapté aux systèmes robotiques suivant des instructions. Dans cet article, nous introduisons le concept d’orientation sémantique, qui définit les orientations des objets à l’aide de langage naturel de manière indépendante d’un repère de référence (par exemple, la direction « d’insertion » d’un connecteur USB ou la direction « de la poignée » d’un couteau). Pour soutenir cette approche, nous avons construit OrienText300K, un grand ensemble de données comprenant 300 000 modèles 3D annotés avec des orientations sémantiques, reliant ainsi la compréhension géométrique aux significations fonctionnelles. En intégrant l’orientation sémantique dans un système VLM, nous permettons aux robots de générer des actions de manipulation tenant compte à la fois des contraintes positionnelles et orientées. Des expériences étendues, menées à la fois dans des environnements simulés et dans le monde réel, démontrent que notre méthode améliore significativement les capacités de manipulation robotique, atteignant par exemple une précision de 48,7 % sur Open6DOR et 74,9 % sur SIMPLER.