Command Palette
Search for a command to run...
F1 : Un modèle Vision-Texte-Action reliant la compréhension et la génération aux actions
Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

Résumé
Exécuter des tâches conditionnées par le langage dans des environnements visuels dynamiques reste un défi central de l’intelligence artificielle incarnée (embodied AI). Les modèles existants de vision-langage-action (VLA) adoptent principalement des cartes réactives de l’état vers l’action, ce qui conduit fréquemment à des comportements à court terme et à une faible robustesse dans des scènes dynamiques. Dans cet article, nous introduisons F1, un cadre préentraîné VLA qui intègre la génération de prévision visuelle dans le pipeline de prise de décision. F1 repose sur une architecture Mixture-of-Transformer dotée de modules dédiés à la perception, à la génération de prévision visuelle et au contrôle, permettant ainsi de relier compréhension, génération et actions. Au cœur de F1, un mécanisme de prédiction à l’échelle suivante permet de synthétiser une prévision visuelle conditionnée par l’objectif, utilisée comme cible explicite de planification. En prédisant des états visuels futurs plausibles, F1 reformule la génération d’actions comme un problème inverse guidé par la prévision, permettant ainsi d’engendrer des actions qui atteignent implicitement les objectifs visuels. Pour doter F1 de capacités robustes et généralisables, nous proposons une recette d’entraînement en trois étapes sur un ensemble de données étendu comprenant plus de 330 000 trajectoires réparties sur 136 tâches diverses. Ce schéma d’entraînement renforce le raisonnement modulaire et confère au modèle une prévision visuelle transférable, essentielle dans des environnements complexes et dynamiques. Des évaluations étendues sur des tâches du monde réel et des benchmarks de simulation montrent que F1 surpasse de manière cohérente les approches existantes, réalisant des gains significatifs tant en taux de réussite des tâches qu’en capacité de généralisation.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.