HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

F1 : Un modèle Vision-Texte-Action reliant la compréhension et la génération aux actions

Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

F1 : Un modèle Vision-Texte-Action reliant la compréhension et la génération aux actions

Résumé

Exécuter des tâches conditionnées par le langage dans des environnements visuels dynamiques reste un défi central de l’intelligence artificielle incarnée (embodied AI). Les modèles existants de vision-langage-action (VLA) adoptent principalement des cartes réactives de l’état vers l’action, ce qui conduit fréquemment à des comportements à court terme et à une faible robustesse dans des scènes dynamiques. Dans cet article, nous introduisons F1, un cadre préentraîné VLA qui intègre la génération de prévision visuelle dans le pipeline de prise de décision. F1 repose sur une architecture Mixture-of-Transformer dotée de modules dédiés à la perception, à la génération de prévision visuelle et au contrôle, permettant ainsi de relier compréhension, génération et actions. Au cœur de F1, un mécanisme de prédiction à l’échelle suivante permet de synthétiser une prévision visuelle conditionnée par l’objectif, utilisée comme cible explicite de planification. En prédisant des états visuels futurs plausibles, F1 reformule la génération d’actions comme un problème inverse guidé par la prévision, permettant ainsi d’engendrer des actions qui atteignent implicitement les objectifs visuels. Pour doter F1 de capacités robustes et généralisables, nous proposons une recette d’entraînement en trois étapes sur un ensemble de données étendu comprenant plus de 330 000 trajectoires réparties sur 136 tâches diverses. Ce schéma d’entraînement renforce le raisonnement modulaire et confère au modèle une prévision visuelle transférable, essentielle dans des environnements complexes et dynamiques. Des évaluations étendues sur des tâches du monde réel et des benchmarks de simulation montrent que F1 surpasse de manière cohérente les approches existantes, réalisant des gains significatifs tant en taux de réussite des tâches qu’en capacité de généralisation.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
F1 : Un modèle Vision-Texte-Action reliant la compréhension et la génération aux actions | Articles de recherche | HyperAI