vor 2 Monaten

Koordinierte gemeinsame multimodale Einbettungen für verallgemeinerte audiovisuelle Zeroshot-Klassifizierung und -Suche von Videos

Parida, Kranti Kumar ; Matiyali, Neeraj ; Guha, Tanaya ; Sharma, Gaurav

Abstract

Wir präsentieren einen audiovisuellen multimodalen Ansatz für die Aufgabe des Zero-Shot-Lernens (ZSL) zur Klassifizierung und Retrieval von Videos. ZSL wurde in der jüngsten Vergangenheit intensiv untersucht, war jedoch hauptsächlich auf die visuelle Modalität und Bilder beschränkt. Wir zeigen, dass sowohl audio- als auch visuelle Modalitäten für ZSL bei Videos von Bedeutung sind. Da ein Datensatz zur Untersuchung dieser Aufgabe aktuell nicht verfügbar ist, erstellen wir auch einen geeigneten multimodalen Datensatz mit 33 Klassen, der 156.416 Videos aus einem bestehenden großen Audioereignisdatensatz enthält. Wir beweisen empirisch, dass die Leistung durch Hinzufügen der Audiomodalität bei beiden Aufgaben – Zero-Shot-Klassifizierung und -Retrieval – verbessert wird, wenn man multimodale Erweiterungen von Einbettungslerntmethoden verwendet. Des Weiteren schlagen wir eine neuartige Methode vor, um die „dominante“ Modalität mithilfe eines gemeinsam gelernten Modalaufmerksamkeitsnetzwerks zu vorhersagen. Die Aufmerksamkeit lernen wir in einem semiaufsichtsführenden Szenario und benötigen daher keine zusätzliche explizite Kennzeichnung für die Modalitäten. Wir liefern qualitative Validierungen der modalspezifischen Aufmerksamkeit, die auch erfolgreich auf unbekannte Testklassen verallgemeinert wird.