HyperAIHyperAI

Command Palette

Search for a command to run...

AVGZSLNet: Audiovisuelles generalisiertes Zero-Shot-Lernen durch Rekonstruktion von Label-Features aus multimodalen Einbettungen

Pratik Mazumder Pravendra Singh Kranti Kumar Parida Vinay P. Namboodiri

Zusammenfassung

In dieser Arbeit schlagen wir einen neuen Ansatz für generalisiertes Zero-Shot-Lernen in einem multimodalen Setting vor, bei dem es während des Testens neue Klassen von Audio/Video gibt, die während des Trainings nicht gesehen wurden. Wir nutzen die semantische Verwandtschaft von Text-Embeddings als Methode für das Zero-Shot-Lernen, indem wir Audio- und Video-Embeddings mit dem entsprechenden Klassenbezeichnertext-Feature-Raum ausrichten. Unser Ansatz verwendet einen multimodalen Decoder und einen zusammengesetzten Triplettenverlust (composite triplet loss). Der multimodale Decoder setzt eine Bedingung, dass die Text-Features der Klassenbezeichnung aus den Audio- und Video-Embeddings der Datenpunkte rekonstruiert werden können. Dies hilft den Audio- und Video-Embeddings, sich dem Text-Embedding der Klassenbezeichnung zu nähern. Der zusammengesetzte Triplettenverlust nutzt die Audio-, Video- und Text-Embeddings. Er unterstützt die Annäherung der Embeddings innerhalb derselben Klasse und schiebt die Embeddings verschiedener Klassen voneinander ab in einem multimodalen Setting. Dies verbessert die Leistung des Netzes bei der Aufgabe des multimodalen Zero-Shot-Lernens. Wichtig ist, dass unser multimodaler Zero-Shot-Lernansatz auch dann funktioniert, wenn eine Modalität beim Testen fehlt. Wir testen unseren Ansatz anhand der generalisierten Zero-Shot-Klassifikations- und Retrieval-Aufgaben und zeigen, dass unser Ansatz sowohl in Anwesenheit einer einzelnen Modalität als auch mehrerer Modalitäten andere Modelle übertrifft. Wir validieren unseren Ansatz durch Vergleiche mit früheren Ansätzen und verschiedene Ablationstests.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp