Schauen, Hören und Lernen

Wir betrachten die Fragestellung: Was kann durch das Betrachten und Hören einer großen Anzahl von unbeschrifteten Videos gelernt werden? In den Videos selbst liegt eine wertvolle, bisher jedoch ungenutzte Informationsquelle – die Korrespondenz zwischen den visuellen und akustischen Strömen. Wir führen eine neue Lernaufgabe namens "Audiovisuelle Korrespondenz" (Audio-Visual Correspondence) ein, die diese Informationsquelle nutzt. Es wird gezeigt, dass das Training von visuellen und akustischen Netzen aus dem Grundzustand, ausschließlich mit den rohen, uneingeschränkten Videos als Supervision, diese Aufgabe erfolgreich lösen kann. Interessanterweise ergeben sich dabei gute visuelle und akustische Repräsentationen. Diese Merkmale setzen einen neuen Stand der Technik in zwei Benchmarks für Klangklassifizierung und erreichen vergleichbare Ergebnisse wie die besten selbstüberwachten Ansätze bei der Klassifizierung auf ImageNet. Zudem zeigen wir, dass das Netzwerk in der Lage ist, Objekte in beiden Modalitäten zu lokalisieren sowie feingranulare Erkennungsaufgaben zu bewältigen.