HyperAIHyperAI

Command Palette

Search for a command to run...

EquiAV : Exploiter l'équivarance pour l'apprentissage contrastif audio-visuel

Jongsuk Kim Hyeongkeun Lee Kyeongha Rho Junmo Kim Joon Son Chung

Résumé

Les avancées récentes dans l'apprentissage automatique des représentations audio-visuelles auto-supervisées ont démontré leur potentiel à capturer des représentations riches et complètes. Toutefois, malgré les avantages de la transformation des données confirmés par de nombreuses méthodes d'apprentissage, l'apprentissage audio-visuel peine à tirer pleinement parti de ces bénéfices, car les augmentations peuvent facilement perturber la correspondance entre les paires d'entrée. Pour remédier à cette limitation, nous proposons EquiAV, un cadre novateur qui exploite l'équivalence pour l'apprentissage contrastif audio-visuel. Notre approche commence par étendre le concept d'équivalence à l'apprentissage audio-visuel, grâce à un prédicteur de transformation basé sur l'attention partagée. Celui-ci permet d'agréger les caractéristiques issues de diverses augmentations en un embedding représentatif, offrant ainsi une supervision robuste. Notamment, cela est réalisé avec un surcoût computationnel minimal. Des études ablatives approfondies ainsi que des résultats qualitatifs confirment l'efficacité de notre méthode. EquiAV surpasser les approches antérieures sur diverses benchmarks audio-visuelles. Le code est disponible à l'adresse suivante : https://github.com/JongSuk1/EquiAV.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp