Lokales Lernen mit tiefen und manuell gestalteten Merkmalen für die Erkennung von Gesichtsausdrücken

Wir präsentieren einen Ansatz, der automatisch von konvolutionellen Neuronalen Netzen (CNN) gelernte Merkmale und manuell durch das Bag-of-Visual-Words (BOVW)-Modell berechnete Merkmale kombiniert, um Spitzenleistungen im Bereich der Gesichtsausdruckserkennung zu erzielen. Um automatische Merkmale zu gewinnen, experimentieren wir mit verschiedenen CNN-Architekturen, vorgefertigten Modellen und Trainingsverfahren, wie zum Beispiel dem Dense-Sparse-Dense-Verfahren. Nach der Fusion beider Merkmalsarten verwenden wir ein lokales Lernframework, um die Klassenbezeichnung für jedes Testbild vorherzusagen. Das lokale Lernframework basiert auf drei Schritten. Zunächst wird ein k-nächste-Nachbarn-Modell angewendet, um die nächsten Trainingsbeispiele für ein Eingabetestbild auszuwählen. Als Zweites wird ein One-vs.-All-Support-Vektor-Maschinen (SVM)-Klassifikator auf den ausgewählten Trainingsbeispielen trainiert. Schließlich wird der SVM-Klassifikator nur zur Vorhersage der Klassenbezeichnung des Testbildes verwendet, für das er trainiert wurde. Obwohl wir in unserer früheren Arbeit lokale Lernmethoden in Kombination mit manuellen Merkmalen eingesetzt haben, ist uns nicht bekannt, dass lokale Lernmethoden jemals in Verbindung mit tiefen Merkmalen verwendet wurden. Die Experimente anhand des 2013 Facial Expression Recognition (FER) Challenge Datensatzes, des FER+ Datensatzes und des AffectNet Datensatzes zeigen, dass unser Ansatz Spitzenleistungen erzielt. Mit einer Top-Genauigkeit von 75,42 % auf FER 2013, 87,76 % auf FER+, 59,58 % bei der AffectNet 8-Weg-Klassifizierung und 63,31 % bei der AffectNet 7-Weg-Klassifizierung übertreffen wir die bisher besten Methoden um mehr als 1 % in allen Datensätzen.