HyperAIHyperAI

Command Palette

Search for a command to run...

Koordinierte gemeinsame multimodale Einbettungen für verallgemeinerte audiovisuelle Zeroshot-Klassifizierung und -Suche von Videos

Kranti Kumar Parida Neeraj Matiyali Tanaya Guha Gaurav Sharma

Zusammenfassung

Wir präsentieren einen audiovisuellen multimodalen Ansatz für die Aufgabe des Zero-Shot-Lernens (ZSL) zur Klassifizierung und Retrieval von Videos. ZSL wurde in der jüngsten Vergangenheit intensiv untersucht, war jedoch hauptsächlich auf die visuelle Modalität und Bilder beschränkt. Wir zeigen, dass sowohl audio- als auch visuelle Modalitäten für ZSL bei Videos von Bedeutung sind. Da ein Datensatz zur Untersuchung dieser Aufgabe aktuell nicht verfügbar ist, erstellen wir auch einen geeigneten multimodalen Datensatz mit 33 Klassen, der 156.416 Videos aus einem bestehenden großen Audioereignisdatensatz enthält. Wir beweisen empirisch, dass die Leistung durch Hinzufügen der Audiomodalität bei beiden Aufgaben – Zero-Shot-Klassifizierung und -Retrieval – verbessert wird, wenn man multimodale Erweiterungen von Einbettungslerntmethoden verwendet. Des Weiteren schlagen wir eine neuartige Methode vor, um die „dominante“ Modalität mithilfe eines gemeinsam gelernten Modalaufmerksamkeitsnetzwerks zu vorhersagen. Die Aufmerksamkeit lernen wir in einem semiaufsichtsführenden Szenario und benötigen daher keine zusätzliche explizite Kennzeichnung für die Modalitäten. Wir liefern qualitative Validierungen der modalspezifischen Aufmerksamkeit, die auch erfolgreich auf unbekannte Testklassen verallgemeinert wird.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Koordinierte gemeinsame multimodale Einbettungen für verallgemeinerte audiovisuelle Zeroshot-Klassifizierung und -Suche von Videos | Paper | HyperAI