Command Palette
Search for a command to run...
GigaBrain-0 : un modèle vision-langage-action alimenté par un monde modélisé

Résumé
La formation des modèles Vision-Language-Action (VLA) destinés à des robots généralistes nécessite généralement de vastes ensembles de données réelles recueillies par des robots, un processus coûteux et long. L’inefficacité du recueil de données physiques limite sévèrement l’extensibilité et la capacité de généralisation des systèmes VLA actuels. Pour relever ce défi, nous introduisons GigaBrain-0, un nouveau modèle fondamental VLA alimenté par des données générées à l’aide de modèles mondiaux (par exemple, génération vidéo, transfert réel→réel, transfert humain, transfert de vue, données de transfert simulation→réel). En exploitant les modèles mondiaux pour produire à grande échelle des données diversifiées, GigaBrain-0 réduit considérablement la dépendance aux données réelles de robot tout en améliorant la généralisation entre tâches. Notre approche renforce par ailleurs la robustesse de la politique grâce à une modélisation des entrées RGBD et à une supervision par chaîne de raisonnement incarnée (embodied Chain-of-Thought), permettant au modèle de raisonner sur la géométrie spatiale, l’état des objets et les dépendances à long horizon durant l’exécution des tâches. Cela se traduit par des gains importants en performance dans le monde réel sur des tâches exigeant une dextérité, une horizontale longue et une manipulation mobile. Des expérimentations approfondies montrent que GigaBrain-0 atteint une généralisation supérieure face à des variations d’apparence (par exemple, textures, couleurs), de positionnement d’objets et de points de vue de caméra. En outre, nous présentons GigaBrain-0-Small, une version allégée optimisée pour fonctionner efficacement sur des dispositifs tels que l’NVIDIA Jetson AGX Orin.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.