Verwendung selbstüberwachter Hilfsaufgaben zur Verbesserung feinkörniger Gesichtsrepräsentation

In diesem Artikel wird zunächst der Einfluss einer ImageNet-Vortrainierung auf die feinabgestimmte Gesichtsausdruckserkennung (Fine-Grained Facial Emotion Recognition, FER) untersucht. Dabei zeigt sich, dass bei ausreichend starker Bildaugmentation das Training von Grund auf (training from scratch) bessere Ergebnisse liefert als das Fine-Tuning auf einer ImageNet-Vortrainierung. Anschließend stellen wir eine Methode vor, die die Leistung bei feinabgestimmter und in-the-wild FER verbessert, und nennen sie Hybrid Multi-Task Learning (HMTL). HMTL integriert Self-Supervised Learning (SSL) als Hilfsaufgabe im Rahmen des klassischen Supervised Learning (SL) in Form von Multi-Task Learning (MTL). Durch die Nutzung von SSL während des Trainings kann zusätzliche Information aus den Bildern für die primäre feinabgestimmte SL-Aufgabe gewonnen werden. Wir untersuchen, wie das vorgeschlagene HMTL im FER-Bereich eingesetzt werden kann, indem wir zwei angepasste Versionen gängiger Pre-Text-Aufgaben-Techniken – Puzzling und In-Painting – entwickeln. Mit zwei Varianten von HMTL erreichen wir state-of-the-art Ergebnisse auf der AffectNet-Benchmark, ohne zusätzliche Vortrainierung auf externen Datensätzen zu verwenden. Experimentelle Ergebnisse zeigen den Unterschied und die Überlegenheit unseres Ansatzes gegenüber gängigen SSL-Vortrainierungsstrategien. HMTL ist jedoch nicht auf den FER-Bereich beschränkt. Experimente an zwei weiteren feinabgestimmten Gesichtsaufgaben – Kopfpose-Schätzung und Geschlechtererkennung – belegen das Potenzial von HMTL zur Verbesserung feinabgestimmter Gesichtsrepräsentationen.