HyperAIHyperAI

Command Palette

Search for a command to run...

Zeitliche und multimodale Aufmerksamkeit für audiovisuelles Zero-Shot-Lernen

Otniel-Bogdan Mercea Thomas Hummel A. Sophia Koepke Zeynep Akata

Zusammenfassung

Die audiovisuelle generalisierte Zero-Shot-Lernmethode für die Videoklassifizierung erfordert das Verständnis der Beziehungen zwischen akustischer und visueller Information, um Proben aus neuen, zuvor unbekannten Klassen während des Testens erkennen zu können. Die natürliche semantische und zeitliche Ausrichtung von akustischen und visuellen Daten in Videodaten kann genutzt werden, um leistungsfähige Repräsentationen zu lernen, die sich auf unbekannte Klassen während des Testens verallgemeinern. Wir schlagen ein multimodales und zeitliches Kreuzaufmerksamkeitsframework (\modelName) für die audiovisuelle generalisierte Zero-Shot-Lernmethode vor. Die Eingaben sind zeitlich ausgerichtete akustische und visuelle Merkmale, die aus vortrainierten Netzen gewonnen werden. Das Anregen des Frameworks, sich auf die zeitliche Korrespondenz zwischen den Modalen statt auf Selbstaufmerksamkeit innerhalb der Modalitäten zu konzentrieren, verbessert die Leistung erheblich. Wir zeigen, dass unser vorgeschlagenes Framework, das zeitliche Merkmale verarbeitet, den Stand der Technik auf den Benchmarks \ucf, \vgg und \activity für (generalisierte) Zero-Shot-Lernmethoden erreicht. Der Code zur Reproduktion aller Ergebnisse ist unter \url{https://github.com/ExplainableML/TCAF-GZSL} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zeitliche und multimodale Aufmerksamkeit für audiovisuelles Zero-Shot-Lernen | Paper | HyperAI