Genie Envisioner : une plateforme fondamentale unifiée du monde pour la manipulation robotique

Nous introduisons Genie Envisioner (GE), une plateforme fondamentale unifiée pour la manipulation robotique, intégrant l'apprentissage de politiques, l'évaluation et la simulation au sein d’un cadre unique basé sur la génération vidéo. Au cœur de cette architecture, GE-Base est un modèle de diffusion vidéo à grande échelle conditionné par des instructions, capable de capturer de manière structurée les dynamiques spatiales, temporelles et sémantiques des interactions réelles entre robots et environnement dans un espace latente. Partant de cette base, GE-Act mappe les représentations latentes vers des trajectoires d’actions exécutables grâce à un décodeur léger basé sur le matching de flux, permettant une inférence de politique précise et généralisable sur une grande variété d’embodiments, avec une supervision minimale. Pour soutenir l’évaluation et l’entraînement évolutifs, GE-Sim agit comme un simulateur neuronal conditionné par les actions, produisant des simulations haute fidélité pour le développement de politiques en boucle fermée. La plateforme est également dotée d’EWMBench, un ensemble standardisé de benchmarks mesurant la fidélité visuelle, la cohérence physique et l’alignement entre instructions et actions. Ensemble, ces composants établissent Genie Envisioner comme une fondation évolutive et pratique pour une intelligence incarnée générale pilotée par des instructions. Le code source, les modèles et les benchmarks seront publiés librement.