HyperAIHyperAI
vor 2 Monaten

Peak-gesteuertes Tiefes Netzwerk für die Erkennung von Gesichtsausdrücken

Xiangyun Zhao; Xiaodan Liang; Luoqi Liu; Teng Li; Yugang Han; Nuno Vasconcelos; Shuicheng Yan
Peak-gesteuertes Tiefes Netzwerk für die Erkennung von Gesichtsausdrücken
Abstract

Zielsetzungen für das Training tiefer Netzwerke bei Gesichtserkennungsaufgaben, wie der Erkennung von Gesichtsausdrücken (Facial Expression Recognition, FER), berücksichtigen in der Regel jedes Beispiel unabhängig voneinander. In dieser Arbeit stellen wir ein neuartiges Peak-Piloted Deep Network (PPDN) vor, das ein Beispiel mit einem ausgeprägten Ausdruck (leichtes Beispiel) verwendet, um die Zwischenfeatureantworten eines nicht ausgeprägten Ausdrucksbeispiels (schwieriges Beispiel) desselben Typs und derselben Person zu überwachen. Der Prozess des Ausdruckswechsels von einem nicht ausgeprägten zu einem ausgeprägten Ausdruck wird dadurch implizit im Netzwerk eingebettet, um die Unempfindlichkeit gegenüber verschiedenen Intensitätsstufen der Ausdrücke zu erreichen. Für das Training des Netzwerks wird ein spezielles Backpropagation-Verfahren, Peak Gradient Suppression (PGS), vorgeschlagen. Dieses Verfahren führt die Zwischenschichten-Featureantworten von nicht ausgeprägten Ausdrucksbeispielen den entsprechenden ausgeprägten Ausdrucksbeispielen entgegen, während es das Gegenteil vermeidet. Dies verhindert eine Verschlechterung der Erkennungsleistung für Beispiele mit ausgeprägtem Ausdruck aufgrund der Störung durch ihre nicht ausgeprägten Gegenstücke. Umfangreiche Vergleiche an zwei gängigen FER-Datensätzen, Oulu-CASIA und CK+, zeigen die Überlegenheit des PPDN gegenüber den aktuellen besten FER-Methoden sowie die Vorteile sowohl der Netzwerkstruktur als auch der Optimierungsstrategie. Darüber hinaus wird gezeigt, dass PPDN eine allgemeine Architektur ist, die durch geeignete Definition von Peak- und Non-Peak-Beispielen auf andere Aufgaben erweiterbar ist. Dies wird durch Experimente bestätigt, die eine Spitzenleistung bei der Pose-invarianten Gesichtserkennung unter Verwendung des Multi-PIE-Datensatzes demonstrieren.