HyperAIHyperAI
vor 2 Monaten

AVGZSLNet: Audiovisuelles generalisiertes Zero-Shot-Lernen durch Rekonstruktion von Label-Features aus multimodalen Einbettungen

Mazumder, Pratik ; Singh, Pravendra ; Parida, Kranti Kumar ; Namboodiri, Vinay P.
AVGZSLNet: Audiovisuelles generalisiertes Zero-Shot-Lernen durch Rekonstruktion von Label-Features aus multimodalen Einbettungen
Abstract

In dieser Arbeit schlagen wir einen neuen Ansatz für generalisiertes Zero-Shot-Lernen in einem multimodalen Setting vor, bei dem es während des Testens neue Klassen von Audio/Video gibt, die während des Trainings nicht gesehen wurden. Wir nutzen die semantische Verwandtschaft von Text-Embeddings als Methode für das Zero-Shot-Lernen, indem wir Audio- und Video-Embeddings mit dem entsprechenden Klassenbezeichnertext-Feature-Raum ausrichten. Unser Ansatz verwendet einen multimodalen Decoder und einen zusammengesetzten Triplettenverlust (composite triplet loss). Der multimodale Decoder setzt eine Bedingung, dass die Text-Features der Klassenbezeichnung aus den Audio- und Video-Embeddings der Datenpunkte rekonstruiert werden können. Dies hilft den Audio- und Video-Embeddings, sich dem Text-Embedding der Klassenbezeichnung zu nähern. Der zusammengesetzte Triplettenverlust nutzt die Audio-, Video- und Text-Embeddings. Er unterstützt die Annäherung der Embeddings innerhalb derselben Klasse und schiebt die Embeddings verschiedener Klassen voneinander ab in einem multimodalen Setting. Dies verbessert die Leistung des Netzes bei der Aufgabe des multimodalen Zero-Shot-Lernens. Wichtig ist, dass unser multimodaler Zero-Shot-Lernansatz auch dann funktioniert, wenn eine Modalität beim Testen fehlt. Wir testen unseren Ansatz anhand der generalisierten Zero-Shot-Klassifikations- und Retrieval-Aufgaben und zeigen, dass unser Ansatz sowohl in Anwesenheit einer einzelnen Modalität als auch mehrerer Modalitäten andere Modelle übertrifft. Wir validieren unseren Ansatz durch Vergleiche mit früheren Ansätzen und verschiedene Ablationstests.

AVGZSLNet: Audiovisuelles generalisiertes Zero-Shot-Lernen durch Rekonstruktion von Label-Features aus multimodalen Einbettungen | Neueste Forschungsarbeiten | HyperAI