il y a 5 mois

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

Résumé

Les capacités remarquables en zéro-shot des grands modèles linguistiques (LLM) ont permis de faire évoluer le traitement du langage naturel, passant de modèles spécifiques à des tâches vers des modèles fondamentaux unifiés et généralistes. Cette transformation s’est fondée sur des primitives simples : des modèles génératifs à grande échelle entraînés sur des données à l’échelle du web. De manière curieuse, les mêmes primitives s’appliquent aux modèles vidéo génératifs d’aujourd’hui. Les modèles vidéo pourraient-ils suivre une trajectoire analogue à celle des LLM, aboutissant à une compréhension visuelle généraliste, tout comme ces derniers ont évolué vers une compréhension linguistique généraliste ? Nous démontrons que Veo 3 est capable de résoudre une large variété de tâches pour lesquelles il n’a pas été explicitement entraîné : segmentation d’objets, détection de contours, édition d’images, compréhension des propriétés physiques, reconnaissance des affordances d’objets, simulation de l’usage d’outils, et bien d’autres. Ces capacités de perception, de modélisation et de manipulation du monde visuel permettent déjà des formes préliminaires de raisonnement visuel, telles que la résolution de labyrinthes ou de problèmes de symétrie. Les capacités émergentes en zéro-shot de Veo indiquent que les modèles vidéo sont en voie de devenir des modèles fondamentaux unifiés et généralistes pour la vision.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 5 mois

Vision Par Ordinateur

Tâche

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 5 mois

Vision Par Ordinateur

Tâche

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Les modèles vidéo sont des apprenants et raisonneurs zéro-shot

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Les modèles vidéo sont des apprenants et raisonneurs zéro-shot

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Les modèles vidéo sont des apprenants et raisonneurs zéro-shot

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters