HyperAIHyperAI

Command Palette

Search for a command to run...

Zwei-Ströme-Videoklassifizierung mit Kreuzmodaler Aufmerksamkeit

Lu Chi; Guiyu Tian; Yadong Mu; Qi Tian

Zusammenfassung

Die Fusion von multimodalem Information wird als effektiv zur erheblichen Verbesserung der Videoklassifikation anerkannt. Dennoch ist die bislang beliebteste Methode weiterhin die einfache Fusion der Vorhersagebewertungen jedes Streams in der letzten Phase. Eine berechtigte Frage ist, ob es eine effektivere Methode gibt, um Informationen über verschiedene Modalitäten zu fusionieren. Mit der Entwicklung des Aufmerksamkeitsmechanismus in der Natürlichen Sprachverarbeitung (Natural Language Processing) sind zahlreiche erfolgreiche Anwendungen dieses Mechanismus im Bereich der Computer Vision entstanden. In dieser Arbeit schlagen wir eine cross-modale Aufmerksamkeitsoperation vor, die auf effizientere Weise als das Two-Stream-Verfahren Informationen aus anderen Modalitäten gewinnen kann. Dementsprechend haben wir einen kompatiblen Block namens CMA-Block implementiert, der eine Verpackung unserer vorgeschlagenen Aufmerksamkeitsoperation darstellt. Der CMA-Block kann in viele bestehende Architekturen integriert werden. In den Experimenten vergleichen wir unser Verfahren umfassend mit den weit verbreiteten Two-Stream- und Non-Local-Modellen, die in der Videoklassifikation eingesetzt werden. Alle Experimente belegen eindeutig die überlegene Leistungsfähigkeit unserer Methode. Wir analysieren auch die Vorteile des CMA-Blocks durch Visualisierung der Aufmerksamkeitskarte, die anschaulich zeigt, wie dieser Block zur endgültigen Vorhersage beiträgt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp