HyperAIHyperAI
vor 2 Monaten

Zwei-Ströme-Videoklassifizierung mit Kreuzmodaler Aufmerksamkeit

Lu Chi; Guiyu Tian; Yadong Mu; Qi Tian
Zwei-Ströme-Videoklassifizierung mit Kreuzmodaler Aufmerksamkeit
Abstract

Die Fusion von multimodalem Information wird als effektiv zur erheblichen Verbesserung der Videoklassifikation anerkannt. Dennoch ist die bislang beliebteste Methode weiterhin die einfache Fusion der Vorhersagebewertungen jedes Streams in der letzten Phase. Eine berechtigte Frage ist, ob es eine effektivere Methode gibt, um Informationen über verschiedene Modalitäten zu fusionieren. Mit der Entwicklung des Aufmerksamkeitsmechanismus in der Natürlichen Sprachverarbeitung (Natural Language Processing) sind zahlreiche erfolgreiche Anwendungen dieses Mechanismus im Bereich der Computer Vision entstanden. In dieser Arbeit schlagen wir eine cross-modale Aufmerksamkeitsoperation vor, die auf effizientere Weise als das Two-Stream-Verfahren Informationen aus anderen Modalitäten gewinnen kann. Dementsprechend haben wir einen kompatiblen Block namens CMA-Block implementiert, der eine Verpackung unserer vorgeschlagenen Aufmerksamkeitsoperation darstellt. Der CMA-Block kann in viele bestehende Architekturen integriert werden. In den Experimenten vergleichen wir unser Verfahren umfassend mit den weit verbreiteten Two-Stream- und Non-Local-Modellen, die in der Videoklassifikation eingesetzt werden. Alle Experimente belegen eindeutig die überlegene Leistungsfähigkeit unserer Methode. Wir analysieren auch die Vorteile des CMA-Blocks durch Visualisierung der Aufmerksamkeitskarte, die anschaulich zeigt, wie dieser Block zur endgültigen Vorhersage beiträgt.