il y a 5 mois

Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

Résumé

Exécuter des tâches conditionnées par le langage dans des environnements visuels dynamiques reste un défi central de l’intelligence artificielle incarnée (embodied AI). Les modèles existants de vision-langage-action (VLA) adoptent principalement des cartes réactives de l’état vers l’action, ce qui conduit fréquemment à des comportements à court terme et à une faible robustesse dans des scènes dynamiques. Dans cet article, nous introduisons F1, un cadre préentraîné VLA qui intègre la génération de prévision visuelle dans le pipeline de prise de décision. F1 repose sur une architecture Mixture-of-Transformer dotée de modules dédiés à la perception, à la génération de prévision visuelle et au contrôle, permettant ainsi de relier compréhension, génération et actions. Au cœur de F1, un mécanisme de prédiction à l’échelle suivante permet de synthétiser une prévision visuelle conditionnée par l’objectif, utilisée comme cible explicite de planification. En prédisant des états visuels futurs plausibles, F1 reformule la génération d’actions comme un problème inverse guidé par la prévision, permettant ainsi d’engendrer des actions qui atteignent implicitement les objectifs visuels. Pour doter F1 de capacités robustes et généralisables, nous proposons une recette d’entraînement en trois étapes sur un ensemble de données étendu comprenant plus de 330 000 trajectoires réparties sur 136 tâches diverses. Ce schéma d’entraînement renforce le raisonnement modulaire et confère au modèle une prévision visuelle transférable, essentielle dans des environnements complexes et dynamiques. Des évaluations étendues sur des tâches du monde réel et des benchmarks de simulation montrent que F1 surpasse de manière cohérente les approches existantes, réalisant des gains significatifs tant en taux de réussite des tâches qu’en capacité de généralisation.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 5 mois

Intelligence Incarnée

Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 5 mois

Intelligence Incarnée

Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

F1 : Un modèle Vision-Texte-Action reliant la compréhension et la génération aux actions

Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

F1 : Un modèle Vision-Texte-Action reliant la compréhension et la génération aux actions

Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

F1 : Un modèle Vision-Texte-Action reliant la compréhension et la génération aux actions

Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters