Command Palette
Search for a command to run...
Robix : un modèle unifié pour l'interaction, le raisonnement et la planification robotiques
Huang Fang Mengxi Zhang Heng Dong Wei Li Zixuan Wang Qifeng Zhang Xueyun Tian Yucheng Hu Hang Li

Résumé
Nous présentons Robix, un modèle unifié qui intègre le raisonnement robotique, la planification de tâches et l’interaction linguistique naturelle au sein d’une même architecture vision-langage. En tant que couche cognitive de haut niveau dans un système robotique hiérarchique, Robix génère dynamiquement des commandes atomiques destinées au contrôleur de bas niveau ainsi que des réponses verbales pour l’interaction humaine, permettant aux robots de suivre des instructions complexes, de planifier des tâches à long terme et d’interagir naturellement avec les humains dans un cadre end-to-end. Robix introduit par ailleurs de nouvelles capacités, telles que le dialogue proactif, la gestion en temps réel des interruptions et le raisonnement communautaire conscient du contexte durant l’exécution des tâches. Au cœur de Robix se trouve une stratégie de raisonnement en chaîne (chain-of-thought), accompagnée d’une approche d’entraînement en trois étapes : (1) un pré-entraînement continu visant à renforcer les capacités fondamentales de raisonnement incarné, notamment la compréhension spatiale 3D, le repérage visuel et le raisonnement centré sur la tâche ; (2) un fine-tuning supervisé permettant de modéliser l’interaction homme-robot et la planification de tâches comme une séquence unifiée de raisonnement-action ; (3) un apprentissage par renforcement afin d’améliorer la cohérence raisonnement-action et la cohérence des tâches à long horizon. Des expérimentations étendues montrent que Robix surpasser les modèles open source et commerciaux (tels que GPT-4o et Gemini 2.5 Pro) en exécution interactive de tâches, démontrant une forte généralisation face à divers types d’instructions (ouvertes, multi-étapes, contraintes, invalides, interrompues) et à différentes tâches impliquant l’utilisateur, comme le débarrassage de table, les courses alimentaires ou le tri alimentaire selon des contraintes nutritionnelles.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.