vor 2 Monaten

Zeitliche und multimodale Aufmerksamkeit für audiovisuelles Zero-Shot-Lernen

Mercea, Otniel-Bogdan ; Hummel, Thomas ; Koepke, A. Sophia ; Akata, Zeynep

Abstract

Die audiovisuelle generalisierte Zero-Shot-Lernmethode für die Videoklassifizierung erfordert das Verständnis der Beziehungen zwischen akustischer und visueller Information, um Proben aus neuen, zuvor unbekannten Klassen während des Testens erkennen zu können. Die natürliche semantische und zeitliche Ausrichtung von akustischen und visuellen Daten in Videodaten kann genutzt werden, um leistungsfähige Repräsentationen zu lernen, die sich auf unbekannte Klassen während des Testens verallgemeinern. Wir schlagen ein multimodales und zeitliches Kreuzaufmerksamkeitsframework (\modelName) für die audiovisuelle generalisierte Zero-Shot-Lernmethode vor. Die Eingaben sind zeitlich ausgerichtete akustische und visuelle Merkmale, die aus vortrainierten Netzen gewonnen werden. Das Anregen des Frameworks, sich auf die zeitliche Korrespondenz zwischen den Modalen statt auf Selbstaufmerksamkeit innerhalb der Modalitäten zu konzentrieren, verbessert die Leistung erheblich. Wir zeigen, dass unser vorgeschlagenes Framework, das zeitliche Merkmale verarbeitet, den Stand der Technik auf den Benchmarks \ucf, \vgg und \activity für (generalisierte) Zero-Shot-Lernmethoden erreicht. Der Code zur Reproduktion aller Ergebnisse ist unter \url{https://github.com/ExplainableML/TCAF-GZSL} verfügbar.