HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

Les modèles vidéo sont des apprenants et raisonneurs zéro-shot

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

Les modèles vidéo sont des apprenants et raisonneurs zéro-shot

Résumé

Les capacités remarquables en zéro-shot des grands modèles linguistiques (LLM) ont permis de faire évoluer le traitement du langage naturel, passant de modèles spécifiques à des tâches vers des modèles fondamentaux unifiés et généralistes. Cette transformation s’est fondée sur des primitives simples : des modèles génératifs à grande échelle entraînés sur des données à l’échelle du web. De manière curieuse, les mêmes primitives s’appliquent aux modèles vidéo génératifs d’aujourd’hui. Les modèles vidéo pourraient-ils suivre une trajectoire analogue à celle des LLM, aboutissant à une compréhension visuelle généraliste, tout comme ces derniers ont évolué vers une compréhension linguistique généraliste ? Nous démontrons que Veo 3 est capable de résoudre une large variété de tâches pour lesquelles il n’a pas été explicitement entraîné : segmentation d’objets, détection de contours, édition d’images, compréhension des propriétés physiques, reconnaissance des affordances d’objets, simulation de l’usage d’outils, et bien d’autres. Ces capacités de perception, de modélisation et de manipulation du monde visuel permettent déjà des formes préliminaires de raisonnement visuel, telles que la résolution de labyrinthes ou de problèmes de symétrie. Les capacités émergentes en zéro-shot de Veo indiquent que les modèles vidéo sont en voie de devenir des modèles fondamentaux unifiés et généralistes pour la vision.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Les modèles vidéo sont des apprenants et raisonneurs zéro-shot | Articles de recherche | HyperAI