EquiAV : Exploiter l'équivarance pour l'apprentissage contrastif audio-visuel

Les avancées récentes dans l'apprentissage automatique des représentations audio-visuelles auto-supervisées ont démontré leur potentiel à capturer des représentations riches et complètes. Toutefois, malgré les avantages de la transformation des données confirmés par de nombreuses méthodes d'apprentissage, l'apprentissage audio-visuel peine à tirer pleinement parti de ces bénéfices, car les augmentations peuvent facilement perturber la correspondance entre les paires d'entrée. Pour remédier à cette limitation, nous proposons EquiAV, un cadre novateur qui exploite l'équivalence pour l'apprentissage contrastif audio-visuel. Notre approche commence par étendre le concept d'équivalence à l'apprentissage audio-visuel, grâce à un prédicteur de transformation basé sur l'attention partagée. Celui-ci permet d'agréger les caractéristiques issues de diverses augmentations en un embedding représentatif, offrant ainsi une supervision robuste. Notamment, cela est réalisé avec un surcoût computationnel minimal. Des études ablatives approfondies ainsi que des résultats qualitatifs confirment l'efficacité de notre méthode. EquiAV surpasser les approches antérieures sur diverses benchmarks audio-visuelles. Le code est disponible à l'adresse suivante : https://github.com/JongSuk1/EquiAV.