Command Palette
Search for a command to run...

Résumé
Nous présentons WorldVLA, un modèle d'action du monde autoregressif qui unifie la compréhension et la génération des actions et des images. Notre WorldVLA intègre le modèle Vision-Langage-Action (VLA) et le modèle du monde dans un seul cadre. Le modèle du monde prédit les images futures en s'appuyant à la fois sur la compréhension des actions et des images, dans le but d'apprendre les lois physiques sous-jacentes de l'environnement afin d'améliorer la génération d'actions. Parallèlement, le modèle d'action génère les actions suivantes en fonction des observations visuelles, facilitant ainsi la compréhension visuelle et contribuant à son tour à la génération visuelle du modèle du monde. Nous démontrons que WorldVLA surpasse les modèles d'action et de monde indépendants, soulignant l'interaction mutuellement bénéfique entre le modèle du monde et le modèle d'action. De plus, nous constatons que les performances du modèle d'action se détériorent lorsqu'il génère des séquences d'actions de manière autoregressive. Ce phénomène peut être attribué à une capacité limitée de généralisation pour la prédiction des actions, entraînant une propagation des erreurs des actions antérieures aux actions ultérieures. Pour remédier à ce problème, nous proposons une stratégie de masquage de l'attention qui masque sélectivement les actions précédentes lors de la génération de l'action actuelle, ce qui montre une amélioration significative dans la tâche de génération par segments d'actions.
Dépôts de code
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.