Ein End-to-End visuell-audielles Aufmerksamkeitsnetzwerk für die Emotionserkennung in nutzergenerierten Videos

Die Erkennung von Emotionen in nutzergenerierten Videos spielt eine wichtige Rolle im menschenzentrierten Computing. Bestehende Methoden setzen hauptsächlich auf traditionelle zweistufige flache Pipelines, d.h. die Extraktion visueller und/oder akustischer Merkmale und das Training von Klassifizierern. In dieser Arbeit schlagen wir vor, Videoemotionen auf Basis von Faltungsneuronalen Netzen (CNNs) in einem end-to-end-Prozess zu erkennen. Insbesondere entwickeln wir ein tiefes visuell-akustisches Aufmerksamkeitsnetzwerk (VAANet), eine neuartige Architektur, die räumliche, kanalbezogene und zeitliche Aufmerksamkeiten in ein visuelles 3D-CNN und zeitliche Aufmerksamkeiten in ein akustisches 2D-CNN integriert. Darüber hinaus entwerfen wir einen speziellen Klassifikationsverlust, nämlich den polaritätskonsistenten Kreuzentropieverlust, basierend auf der Polarisierungsemozionierrangfolge-Einschränkung, um die Generierung von Aufmerksamkeiten zu leiten. Ausführliche Experimente anhand der anspruchsvollen VideoEmotion-8- und Ekman-6-Datensätze zeigen, dass das vorgeschlagene VAANet die bislang besten Ansätze für die Erkennung von Videoemotionen übertrifft. Unser Quellcode ist unter folgender URL verfügbar: https://github.com/maysonma/VAANet.