Gemeinsames Entdecken visueller Objekte und gesprochener Wörter aus roher sensorischer Eingabe

In dieser Arbeit untersuchen wir neuronale Netzmodelle, die lernen, Segmente von gesprochenen Audio-Kaptionen mit den semantisch relevanten Teilen natürlicher Bilder zu verknüpfen, auf die sie sich beziehen. Wir zeigen, dass diese audiovisuellen assoziativen Lokalisierungen aus den intern gelernten Darstellungen des Netzes hervorgehen, die als Nebenprodukt des Trainings für eine Bild-Audio-Retrieval-Aufgabe entstehen. Unsere Modelle arbeiten direkt mit den Bildpixeln und dem Sprachsignal und benötigen während des Trainings keine konventionelle Überwachung in Form von Labels, Segmentierungen oder Ausrichtungen zwischen den Modalitäten. Wir führen eine Analyse unter Verwendung der Datensätze Places 205 und ADE20k durch, die zeigt, dass unsere Modelle implizit semantisch gekoppelte Objekterkennung und Wörterkennung lernen.