Robuster, leichtgewichtiger Netzwerkansatz zur Gesichtsausdrucks-Erkennung mit Label-Distributions-Training
Diese Arbeit präsentiert ein effizientes und robusteres Netzwerk für die Gesichtsausdruckserkennung (Facial Expression Recognition, FER), namens EfficientFace, das wesentlich weniger Parameter aufweist, jedoch robuster gegenüber FER-Daten aus natürlichen Umgebungen (in the wild) ist. Zunächst wird zur Verbesserung der Robustheit des leichtgewichtigen Netzwerks ein lokaler Merkmalsextraktor sowie ein Kanal-Raum-Modulator entworfen, wobei tiefenweiser Faltungseinsatz (depthwise convolution) verwendet wird. Dadurch ist das Netzwerk in der Lage, sowohl lokale als auch globale auffällige Gesichtsmerkmale zu erfassen. Anschließend berücksichtigen wir die Tatsache, dass die meisten Emotionen als Kombinationen, Mischungen oder Verbindungen der grundlegenden Emotionen auftreten, und führen eine einfache, aber effiziente Methode des Label-Distributions-Lernens (Label Distribution Learning, LDL) als neuartige Trainingsstrategie ein. Experimente an realistischen Datensätzen mit Okklusion und Pose-Variationen zeigen, dass das vorgeschlagene EfficientFace unter diesen Bedingungen robust ist. Darüber hinaus erzielt das vorgeschlagene Verfahren auf den Datensätzen RAF-DB, CAER-S und AffectNet-7 jeweils state-of-the-art Ergebnisse mit Genauigkeiten von 88,36 %, 85,87 % und 63,70 %. Auf dem AffectNet-8-Datensatz wird zudem ein vergleichbarer Ergebniswert mit einer Genauigkeit von 59,89 % erreicht.