ASMNet: ein leichtgewichtiges tiefes neuronales Netzwerk für die Gesichtsalignierung und Pose-Schätzung

Das Active Shape Model (ASM) ist ein statistisches Shape-Modell, das eine Zielstruktur repräsentiert. ASM kann maschinelles Lernverfahren dabei unterstützen, eine Menge von Punkten, die ein Objekt (z. B. ein Gesicht) darstellen, auf ein Bild zu übertragen. In diesem Artikel wird eine leichtgewichtige Architektur eines Faltungsneuralen Netzwerks (CNN) vorgestellt, deren Verlustfunktion durch ASM für die Gesichtsalignierung und die Schätzung der Kopfhaltung in natürlichen Umgebungen unterstützt wird. Wir nutzen ASM zunächst, um das Netzwerk dahingehend zu leiten, eine glattere Verteilung der Gesichtsmerkmalspunkte zu lernen. Inspiriert durch Transfer Learning härten wir während des Trainingsprozesses schrittweise das Regressionsproblem ab und führen das Netzwerk gezielt zur Lernung der ursprünglichen Verteilung der Merkmalspunkte. In unserer Verlustfunktion definieren wir mehrere Aufgaben, die für die Detektion von Gesichtsmerkmalspunkten sowie die Schätzung der Gesichtshaltung verantwortlich sind. Das gleichzeitige Lernen mehrerer korrelierter Aufgaben erzeugt Synergien und verbessert die Leistung einzelner Aufgaben. Wir vergleichen die Leistung unseres vorgeschlagenen Modells, ASMNet, mit der von MobileNetV2 (das etwa doppelt so groß ist wie ASMNet) in beiden Aufgaben – Gesichtsalignierung und Haltungsschätzung. Experimentelle Ergebnisse auf anspruchsvollen Datensätzen zeigen, dass ASMNet durch die vorgeschlagene ASM-unterstützte Verlustfunktion eine vergleichbare Leistung wie MobileNetV2 bei der Gesichtsalignierung erzielt. Zudem übertrifft ASMNet MobileNetV2 bei der Schätzung der Gesichtshaltung deutlich. ASMNet erreicht eine akzeptable Leistung sowohl bei der Detektion von Gesichtsmerkmalspunkten als auch bei der Haltungsschätzung, während es im Vergleich zu vielen CNN-basierten Modellen eine signifikant geringere Anzahl an Parametern und Fließkommaoperationen aufweist.