Séparer le « Chirp » du « Chat » : Ancrage visuel auto-supervisé du son et du langage

Nous présentons DenseAV, une nouvelle architecture de codage en double flux qui apprend des caractéristiques à haute résolution, sémantiquement significatives et alignées audiovisuellement uniquement en regardant des vidéos. Nous montrons que DenseAV peut découvrir le « sens » des mots et la « localisation » des sons sans supervision explicite de localisation. De plus, elle découvre et distingue automatiquement ces deux types d'associations sans supervision. Nous démontrons que les capacités de localisation de DenseAV proviennent d'un nouvel opérateur d'agrégation de caractéristiques multi-têtes qui compare directement les représentations d'images et de sons denses pour l'apprentissage par contraste. En revanche, de nombreux autres systèmes qui apprennent des représentations audio et vidéo « globales » ne peuvent pas localiser les mots et les sons. Enfin, nous contribuons avec deux nouveaux jeux de données pour améliorer l'évaluation des représentations AV (audiovisuelles) par segmentation sémantique guidée par la parole et le son. Sur ces jeux de données ainsi que sur d'autres, nous montrons que DenseAV surpasse considérablement l'état de l'art précédent en matière de segmentation sémantique guidée par la parole et le son. DenseAV surpass également l'état de l'art précédent, ImageBind, dans la recherche intermodale avec moins de la moitié des paramètres. Page du projet : https://aka.ms/denseav{https://aka.ms/denseav}