Detektion von Gesichtslandmarkenpunkten mittels neuronaler Netze basierend auf Knowledge Distillation

Die Gesichtslandmarkendetektion ist ein entscheidender Schritt für zahlreiche Anwendungen der Gesichtsbildanalyse. Obwohl einige auf tiefen neuronalen Netzen basierende Methoden bei dieser Aufgabe gute Ergebnisse erzielt haben, sind sie oft nicht für die Ausführung auf mobilen Geräten geeignet. Diese Methoden setzen Netzwerke mit einer großen Anzahl an Parametern voraus, was das Training und die Inferenz zeitaufwendig macht. Das Training leichtgewichtiger neuronaler Netzwerke wie MobileNets ist oft herausfordernd, und die resultierenden Modelle weisen möglicherweise eine geringe Genauigkeit auf. Inspiriert durch Knowledge Distillation (KD) präsentiert dieser Artikel eine neuartige Verlustfunktion, um ein leichtgewichtiges Student-Netzwerk (z. B. MobileNetV2) für die Gesichtslandmarkendetektion zu trainieren. Wir verwenden zwei Teacher-Netzwerke – ein Tolerantes-Teacher-Netzwerk und ein Schwieriges-Teacher-Netzwerk – in Kombination mit dem Student-Netzwerk. Das Tolerante-Teacher-Netzwerk wird mit sogenannten Soft-Landmarken trainiert, die durch aktive Shape-Modelle generiert werden, während das Schwierige-Teacher-Netzwerk mit den ground-truth-Landmarken (auch Hard-Landmarken genannt) trainiert wird. Um die von den Teacher-Netzwerken vorhergesagten Gesichtslandmarken effektiv zu nutzen, definieren wir für jedes Teacher-Netzwerk eine Assistive Loss (ALoss). Zudem führen wir eine Verlustfunktion namens KD-Loss ein, die die von zwei vortrainierten Teacher-Netzwerken (EfficientNet-b3) vorhergesagten Gesichtslandmarken nutzt, um das leichtgewichtige Student-Netzwerk dabei zu unterstützen, die Hard-Landmarken präzise vorherzusagen. Unsere experimentellen Ergebnisse auf drei anspruchsvollen Gesichtsdatensätzen zeigen, dass das vorgeschlagene Architekturmodell ein besser trainiertes Student-Netzwerk ergibt, das Gesichtslandmarken mit hoher Genauigkeit extrahieren kann.