Gesichtsausdrucks- und Merkmalserkennung basierend auf dem Multi-Task-Lernen leichtgewichtiger neuronaler Netze

In diesem Artikel untersuchen wir das Multi-Task-Training leichtgewichtiger Faltungsneuraler Netze für die Gesichtsidentifikation und die Klassifizierung von Gesichtsmerkmalen (Alter, Geschlecht, Ethnizität), die auf zugeschnittenen Gesichtern ohne Randbereiche trainiert wurden. Es wird gezeigt, dass eine Nachjustierung (Fine-Tuning) dieser Netzwerke weiterhin notwendig ist, um Gesichtsausdrücke präzise vorherzusagen. Mehrere Modelle basierend auf den Architekturen MobileNet, EfficientNet und RexNet werden vorgestellt. Experimentell wird nachgewiesen, dass unsere Modelle eine state-of-the-art Genauigkeit bei der Emotionsklassifizierung auf dem AffectNet-Datensatz erreichen und nahezu state-of-the-art Ergebnisse bei der Alters-, Geschlechts- und Rassenerkennung auf dem UTKFace-Datensatz erzielen. Zudem zeigt sich, dass die Verwendung unseres neuronalen Netzes als Merkmalsextrahierer für Gesichtsregionen in Videobildern, kombiniert mit der Verkettung mehrerer statistischer Funktionen (Mittelwert, Maximum usw.), eine um 4,5 % höhere Genauigkeit erzielt als die bisher bekannten state-of-the-art Einzelmodelle für die Datensätze AFEW und VGAF aus den EmotiW-Challenges.