HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage automatique de variantes visuelles induites par la vidéo

Michael Tschannen Josip Djolonga Marvin Ritter Aravindh Mahendran Xiaohua Zhai Neil Houlsby Sylvain Gelly Mario Lucic

Résumé

Nous proposons un cadre général d'apprentissage auto-supervisé visant à acquérir des représentations visuelles transférables fondées sur les invariances visuelles induites par les vidéos (VIVI, Video-Induced Visual Invariances). Nous exploitons l'héritage implicite présent dans les vidéos en tirant parti de (i) invariances au niveau des trames (par exemple, stabilité face aux perturbations de couleur et de contraste), (ii) invariances au niveau des plans/extraits (par exemple, robustesse aux changements d'orientation des objets et des conditions d'éclairage), et (iii) invariances au niveau des vidéos (relations sémantiques entre scènes à travers les plans ou extraits), afin de définir une perte auto-supervisée globale. En entraînant des modèles à l’aide de différentes variantes du cadre proposé sur des vidéos issues du jeu de données YouTube-8M (YT8M), nous obtenons des résultats d’apprentissage transféré auto-supervisé de pointe sur les 19 tâches diverses du Visual Task Adaptation Benchmark (VTAB), en utilisant uniquement 1 000 étiquettes par tâche. Nous montrons ensuite comment entraîner conjointement nos modèles avec des images étiquetées, surpassant ainsi un ResNet-50 pré-entraîné sur ImageNet de 0,8 point avec 10 fois moins d’images étiquetées, ainsi que le meilleur modèle supervisé antérieur de 3,7 points en utilisant l’ensemble complet du jeu de données ImageNet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp