Ablenken Ihrer Aufmerksamkeit: Mehrkopf-Cross-Attention-Netzwerk für die Gesichtsausdrucksanalyse

Wir stellen ein neuartiges Netzwerk zur Gesichtsausdruckserkennung vor, das als Distract your Attention Network (DAN) bezeichnet wird. Unser Ansatz basiert auf zwei zentralen Beobachtungen: Erstens teilen mehrere Klassen inhärent ähnliche zugrundeliegende Gesichtsmerkmale, und ihre Unterschiede können subtil sein. Zweitens äußern sich Gesichtsausdrücke gleichzeitig über mehrere Gesichtsregionen, weshalb zur Erkennung ein ganzheitlicher Ansatz erforderlich ist, der hochordentliche Wechselwirkungen zwischen lokalen Merkmalen kodiert. Um diese Herausforderungen anzugehen, schlagen wir DAN mit drei Schlüsselkomponenten vor: Feature Clustering Network (FCN), Multi-head cross Attention Network (MAN) und Attention Fusion Network (AFN). Die FCN extrahiert robuster Merkmale durch die Verwendung eines Large-Margin-Lernziels, um die Trennbarkeit zwischen Klassen zu maximieren. Darüber hinaus realisiert die MAN mehrere Aufmerksamkeitsköpfe, die gleichzeitig auf mehrere Gesichtsregionen fokussieren und Aufmerksamkeitskarten für diese Bereiche erstellen. Zudem lenkt die AFN diese Aufmerksamkeiten vor der Fusion der Aufmerksamkeitskarten in eine umfassende Karte gezielt auf mehrere Positionen ab. Umfangreiche Experimente an drei öffentlichen Datensätzen (einschließlich AffectNet, RAF-DB und SFEW 2.0) bestätigen, dass die vorgeschlagene Methode konsistent führende Leistung in der Gesichtsausdruckserkennung erzielt. Der Quellcode wird unter https://github.com/yaoing/DAN bereitgestellt.