Découverte conjointe d’objets visuels et de mots parlés à partir d’entrées sensorielles brutes

Dans cet article, nous explorons des modèles de réseaux neuronaux capables d'apprendre à associer des segments de légendes audio parlées aux parties sémantiquement pertinentes des images naturelles auxquelles elles se réfèrent. Nous démontrons que ces localisations associatives audio-visuelles émergent des représentations internes du réseau apprises comme sous-produit de l'entraînement pour effectuer une tâche de recherche d'image-audio. Nos modèles opèrent directement sur les pixels de l'image et la forme d'onde du discours, et ne s'appuient sur aucune supervision conventionnelle sous forme d'étiquettes, de segmentations ou d'alignements entre les modalités lors de l'entraînement. Nous menons une analyse en utilisant les jeux de données Places 205 et ADE20k, démontrant que nos modèles apprennent implicitement des détecteurs d'objets et de mots couplés sémantiquement.