Évaluation des politiques de robotique Gemini dans un simulateur de monde Veo
Évaluation des politiques de robotique Gemini dans un simulateur de monde Veo

Résumé
Les modèles mondiaux génératifs offrent un potentiel important pour simuler les interactions avec des politiques visuomotrices dans des environnements variés. Les modèles vidéo de pointe permettent de générer de manière évolutive et générale des observations réalistes ainsi que des interactions avec l’environnement. Toutefois, leur utilisation en robotique a été jusqu’ici restreinte principalement à des évaluations in-distribution, c’est-à-dire des scénarios similaires à ceux utilisés pour former la politique ou affiner le modèle vidéo de base. Dans ce rapport, nous démontrons que les modèles vidéo peuvent être employés pour couvrir l’ensemble du spectre des cas d’utilisation de l’évaluation des politiques en robotique : de l’évaluation de la performance nominale à la généralisation hors distribution (OOD), en passant par l’analyse de la sécurité physique et sémantique. Nous introduisons un système d’évaluation génératif fondé sur un modèle fondamental vidéo de pointe (Veo). Ce système est optimisé pour supporter la conditionnalité des actions robotiques et assurer une cohérence multi-vue, tout en intégrant des techniques de modification d’images génératives et de complétion multi-vue afin de synthétiser des variations réalistes de scènes du monde réel selon plusieurs axes de généralisation. Nous montrons que le système préserve les capacités fondamentales du modèle vidéo, permettant ainsi une simulation précise de scènes modifiées pour inclure de nouveaux objets d’interaction, de nouveaux arrière-plans visuels ou de nouveaux objets perturbateurs. Cette fidélité permet de prédire avec précision la performance relative de différentes politiques dans des conditions nominales comme hors distribution, d’évaluer l’impact relatif de chaque axe de généralisation sur la performance, et de mener des exercices de « red teaming » des politiques afin d’exposer des comportements violant des contraintes de sécurité physique ou sémantique. Nous validons ces capacités à travers plus de 1600 évaluations réelles portant sur huit points de contrôle de politiques Gemini Robotics et cinq tâches menées par un manipulateur bimanuel.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.