HyperAIHyperAI
vor 2 Monaten

Audiovisuelles generalisiertes Zero-Shot-Lernen mit kreuzmodaler Aufmerksamkeit und Sprache

Mercea, Otniel-Bogdan ; Riesch, Lukas ; Koepke, A. Sophia ; Akata, Zeynep
Audiovisuelles generalisiertes Zero-Shot-Lernen mit kreuzmodaler Aufmerksamkeit und Sprache
Abstract

Das Lernen, Video-Daten in Klassen zu klassifizieren, die nicht im Trainingsdatensatz enthalten sind, also das videobasierte Zero-Shot-Lernen, ist eine Herausforderung. Wir vermuten, dass die natürliche Ausrichtung zwischen den auditiven und visuellen Modalitäten in Videodaten ein reichhaltiges Trainingsignal für das Lernen diskriminativer multimodaler Repräsentationen bereitstellt. Indem wir uns auf die relativ wenig erforschte Aufgabe des audiovisuellen Zero-Shot-Lernens konzentrieren, schlagen wir vor, multimodale Repräsentationen aus audiovisuellen Daten unter Verwendung von cross-modalem Aufmerksamkeitsmechanismus zu lernen und textuelle Label-Embeddings zur Wissensübertragung von gesehenen Klassen auf ungesehene Klassen zu nutzen. Wir gehen einen Schritt weiter und beziehen in unserem generalisierten audiovisuellen Zero-Shot-Lernszenario alle Trainingsklassen in den Testzeit-Suchraum ein, was als Ablenkungen fungiert und die Schwierigkeit erhöht, während es gleichzeitig realistischer wird. Aufgrund des Mangels an einem vereinheitlichten Benchmark in diesem Bereich stellen wir einen (generalisierten) Zero-Shot-Lern-Benchmark auf drei audiovisuellen Datensätzen unterschiedlicher Größe und Schwierigkeit vor: VGGSound, UCF und ActivityNet. Dabei stellen wir sicher, dass die ungesehenen Testklassen nicht im Datensatz erscheinen, der für das überwachte Training der tiefen Modelle verwendet wird.Durch den Vergleich mehrerer relevanter und neuer Methoden zeigen wir, dass unser vorgeschlagenes AVCA-Modell auf allen drei Datensätzen den Stand der Technik erreicht. Der Quellcode und die Daten sind unter \url{https://github.com/ExplainableML/AVCA-GZSL} verfügbar.

Audiovisuelles generalisiertes Zero-Shot-Lernen mit kreuzmodaler Aufmerksamkeit und Sprache | Neueste Forschungsarbeiten | HyperAI