HTNet für die Erkennung von Mikroausdrücken

Das Gesichtsausdrucksmuster ist mit den Kontraktionen der Gesichtsmuskulatur verbunden, und verschiedene Muskelnbewegungen entsprechen unterschiedlichen Emotionszuständen. Bei der Erkennung von Mikroausdrücken sind die Muskelnbewegungen in der Regel fein, was sich negativ auf die Leistung aktueller Algorithmen zur Erkennung von Gesichtsemotionen auswirkt. Die meisten existierenden Methoden verwenden Selbst-Aufmerksamkeitsmechanismen (self-attention mechanisms), um Beziehungen zwischen Token in einer Sequenz zu erfassen, aber sie berücksichtigen nicht die inhärenten räumlichen Beziehungen zwischen den Gesichtslandmarken. Dies kann zu suboptimaler Leistung bei Aufgaben zur Erkennung von Mikroausdrücken führen. Daher stellt das Lernen, Gesichtsmuskelnbewegungen zu erkennen, eine wesentliche Herausforderung im Bereich der Mikroausdrucksanalyse dar.In dieser Arbeit schlagen wir ein hierarchisches Transformer-Netzwerk (HTNet) vor, um kritische Bereiche der Gesichtsmuskulaturbewegung zu identifizieren. HTNet besteht aus zwei Hauptkomponenten: einer Transformer-Schicht, die lokale zeitliche Merkmale nutzt, und einer Aggregierungsschicht, die lokale und globale semantische Gesichtsmerkmale extrahiert. Insbesondere unterteilt HTNet das Gesicht in vier verschiedene Bereiche: linkes Mundgebiet, linkes Augengebiet, rechtes Augengebiet und rechtes Mundgebiet. Die Transformer-Schicht wird verwendet, um lokale minimale Muskelnbewegungen durch lokale Selbst-Aufmerksamkeit in jedem Bereich darzustellen. Die Aggregierungsschicht dient dazu, die Interaktionen zwischen den Augengebieten und den Mundgebietsbereichen zu lernen.Die Experimente anhand von vier öffentlich zugänglichen Mikroausdrucksdatensätzen zeigen, dass der vorgeschlagene Ansatz deutlich bessere Ergebnisse als frühere Methoden erzielt. Der Quellcode und die Modelle sind unter folgender URL verfügbar:\url{https://github.com/wangzhifengharrison/HTNet}