HyperAIHyperAI

Command Palette

Search for a command to run...

Autoencodeur masqué audiovisuel contrastif

Yuan Gong; Andrew Rouditchenko; Alexander H. Liu; David Harwath; Leonid Karlinsky; Hilde Kuehne; James Glass

Résumé

Dans cet article, nous étendons d'abord le modèle récent de Masqué Auto-Encodeur (MAE) d'une seule modalité aux modalités audiovisuelles multiples. Ensuite, nous proposons le Masqué Auto-Encodeur Audiovisuel Contrastif (CAV-MAE) en combinant l'apprentissage contrastif et la modélisation de données masquées, deux cadres majeurs d'apprentissage auto-supervisé, pour apprendre une représentation audiovisuelle conjointe et coordonnée. Nos expériences montrent que l'objectif d'apprentissage de correspondance audiovisuelle contrastive non seulement permet au modèle de réaliser des tâches de recherche audiovisuelle, mais aide également le modèle à apprendre une meilleure représentation conjointe. Par conséquent, notre CAV-MAE préentraîné entièrement auto-supervisé atteint une nouvelle précision SOTA (State Of The Art) de 65,9 % sur VGGSound et est comparable au meilleur modèle préentraîné supervisé précédent sur AudioSet dans la tâche de classification d'événements audiovisuels. Le code source et les modèles préentraînés sont disponibles à l'adresse suivante : https://github.com/yuangongnd/cav-mae.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Autoencodeur masqué audiovisuel contrastif | Articles | HyperAI