Gemeinsames Training auf mehreren Datensätzen mit inkonsistenten Kennzeichnungskriterien für die Gesichtsausdruckserkennung
Ein möglicher Ansatz zur Verbesserung der Leistung von Gesichtsausdrucksrekognition (FER) besteht darin, die Trainingsmenge durch Erhöhung der Anzahl an Trainingsbeispielen zu erweitern. Durch die Integration mehrerer FER-Datensätze können tiefe Lernmodelle differenziertere Merkmale extrahieren. Allerdings können die inkonsistenten Label-Kriterien und subjektiven Verzerrungen, die in annotierten FER-Datensätzen vorliegen, die Erkennungsgenauigkeit tiefer Lernmodelle erheblich beeinträchtigen, insbesondere wenn mehrere Datensätze gemeinsam verwendet werden. Die effektive gemeinsame Trainingsdurchführung auf mehreren Datensätzen bleibt eine herausfordernde Aufgabe. In dieser Studie stellen wir eine gemeinsame Trainingsmethode für die FER-Modellierung unter Verwendung mehrerer FER-Datensätze vor. Unsere Methode umfasst vier Schritte: (1) Auswahl einer Teilmenge aus dem zusätzlichen Datensatz, (2) Generierung von Pseudokontinuierlichen Labels für den Ziel-Datensatz, (3) Verbesserung der Labels verschiedener Datensätze mittels kontinuierlicher Label-Mapping und diskreter Label-Neuannotierung basierend auf den Label-Kriterien des Ziel-Datensatzes sowie (4) gemeinsames Training des Modells mittels Multi-Task-Learning. Wir führen gemeinsame Trainingsexperimente auf zwei gängigen in-the-wild-FER-Benchmark-Datenbanken, RAF-DB und CAER-S, durch, wobei wir die AffectNet-Datenbank als zusätzlichen Datensatz nutzen. Die experimentellen Ergebnisse zeigen, dass unsere vorgeschlagene Methode die direkte Kombination verschiedener FER-Datensätze in einer einzigen Trainingsmenge übertrifft und state-of-the-art-Leistung auf RAF-DB und CAER-S mit Genauigkeiten von jeweils 92,24 % und 94,57 % erreicht.