HyperAIHyperAI
vor 2 Monaten

Frame-Aufmerksamkeitsnetzwerke für die Erkennung von Gesichtsausdrücken in Videos

Debin Meng; Xiaojiang Peng; Kai Wang; Yu Qiao
Frame-Aufmerksamkeitsnetzwerke für die Erkennung von Gesichtsausdrücken in Videos
Abstract

Die videosbasierte Erkennung von Gesichtsausdrücken zielt darauf ab, ein gegebenes Video in verschiedene grundlegende Emotionen zu klassifizieren. Die Integration der Gesichtseigenschaften einzelner Frames ist für diese Aufgabe entscheidend. In dieser Arbeit schlagen wir die Frame Attention Networks (FAN) vor, um einige diskriminierende Frames in einem end-to-end-Framework automatisch hervorzuheben. Das Netzwerk nimmt ein Video mit einer variablen Anzahl von Gesichtsbildern als Eingabe und erzeugt eine Darstellung fester Dimension. Das gesamte Netzwerk besteht aus zwei Modulen. Das Feature-Embedding-Modul ist ein tiefer Convolutional Neural Network (CNN), das Gesichtsbilder in Feature-Vektoren einbettet. Das Frame-Attention-Modul lernt mehrere Aufmerksamkeitsgewichte, die verwendet werden, um die Feature-Vektoren adaptiv zusammenzufassen und so eine einzelne, diskriminierende Videodarstellung zu bilden. Wir führen umfangreiche Experimente auf den Datensätzen CK+ und AFEW8.0 durch. Unsere vorgeschlagenen FAN zeigen eine überlegene Leistung im Vergleich zu anderen CNN-basierten Methoden und erreichen den Stand der Technik auf CK+.