Noisy Student-Training unter Verwendung eines Körperausdrucks-Datensatzes verbessert die Gesichtsausdruckserkennung

Die Erkennung von Gesichtsausdrücken aus Videos aus natürlichen Umgebungen ist aufgrund des Mangels an umfangreichen gelabelten Trainingsdaten eine anspruchsvolle Aufgabe. Obwohl große DNN-Architekturen (Deep Neural Networks) und Ensemblesmethoden zu verbesserten Ergebnissen geführt haben, erreichen sie bald eine Sättigung, bedingt durch die begrenzte Datenmenge. In diesem Artikel verwenden wir eine Self-Training-Methode, die sowohl ein gelabeltes Datenset als auch ein ungelabeltes Datenset (Body Language Dataset – BoLD) nutzt. Experimentelle Analysen zeigen, dass das iterative Training eines „noisy student“-Netzwerks zu signifikant besseren Ergebnissen führt. Zudem isoliert unser Modell verschiedene Bereiche des Gesichts und verarbeitet sie unabhängig mithilfe eines mehrstufigen Aufmerksamkeitsmechanismus, was die Leistung weiter steigert. Unsere Ergebnisse belegen, dass die vorgeschlagene Methode auf den Benchmark-Datensätzen CK+ und AFEW 8.0 gegenüber anderen Einzelmodellen die derzeit beste Leistung erzielt.