HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage auto-supervisé par regroupement audio-visuel intermodale

Humam Alwassel; Dhruv Mahajan; Bruno Korbar; Lorenzo Torresani; Bernard Ghanem; Du Tran

Résumé

Les modalités visuelle et auditive sont fortement corrélées, mais elles contiennent des informations différentes. Leur forte corrélation permet de prédire les sémantiques d'une modalité à partir de l'autre avec une bonne précision. Leurs différences intrinsèques rendent la prédiction intermodale une tâche prétexte potentiellement plus enrichissante pour l'apprentissage auto-supervisé des représentations vidéo et audio par rapport à l'apprentissage intra-modale. Sur cette intuition, nous proposons le Cross-Modal Deep Clustering (XDC), une nouvelle méthode d'apprentissage auto-supervisé qui utilise le clustering non supervisé dans une modalité (par exemple, l'audio) comme signal de supervision pour l'autre modalité (par exemple, la vidéo). Cette supervision intermodale aide XDC à exploiter la corrélation sémantique et les différences entre les deux modalités. Nos expériences montrent que XDC surpasse le clustering mono-modale ainsi que d'autres variantes multimodales. XDC atteint une précision de pointe parmi les méthodes d'apprentissage auto-supervisé sur plusieurs bancs d'essai vidéo et audio. Plus important encore, notre modèle vidéo pré-entraîné sur des données non étiquetées à grande échelle dépasse significativement le même modèle pré-entraîné avec une supervision complète sur ImageNet et Kinetics pour la reconnaissance d'actions sur HMDB51 et UCF101. À notre connaissance, XDC est la première méthode d'apprentissage auto-supervisé qui surpassent le pré-entraînement à grande échelle avec supervision complète pour la reconnaissance d'actions sur la même architecture.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp