HyperAIHyperAI
il y a 2 mois

Pertes Évoluées pour l'Apprentissage de Représentations Vidéo Non Supervisé

AJ Piergiovanni; Anelia Angelova; Michael S. Ryoo
Pertes Évoluées pour l'Apprentissage de Représentations Vidéo Non Supervisé
Résumé

Nous présentons une nouvelle méthode pour apprendre des représentations vidéo à partir de grandes quantités de données vidéo non étiquetées. Idéalement, cette représentation sera générique et transférable, directement utilisable pour de nouvelles tâches telles que la reconnaissance d'actions et l'apprentissage par zéro ou quelques exemples. Nous formulons l'apprentissage non supervisé de représentations comme un problème d'apprentissage multi-modale et multi-tâche, où les représentations sont partagées entre différentes modalités par distillation. De plus, nous introduisons le concept d'évolution de la fonction de perte en utilisant un algorithme de recherche évolutionnaire pour trouver automatiquement la combinaison optimale des fonctions de perte capturant de nombreuses tâches (auto-supervisées) et modalités. Troisièmement, nous proposons une métrique d'évaluation non supervisée des représentations en utilisant le couplage de distribution à un grand ensemble de données non étiquetées comme contrainte a priori, basée sur la loi de Zipf. Cette contrainte non supervisée, qui n'est guidée par aucune étiquette, produit des résultats similaires à ceux obtenus avec des méthodes faiblement supervisées spécifiques à une tâche. L'apprentissage non supervisé des représentations proposé aboutit à un seul réseau RGB et surpasses les méthodes précédentes. Il est notablement plus efficace que plusieurs méthodes basées sur des étiquettes (par exemple, ImageNet), à l'exception des grands ensembles de données vidéo entièrement étiquetés.