Ein effizienter mehraufgabenorientierter neuronaler Netzwerkansatz für die Gesichtsalignment, die Kopfpose-Schätzung und das Gesichtstracking

Obwohl Convolutional Neural Networks (CNNs) die Leistung von Gesichtsbezogenen Algorithmen erheblich gesteigert haben, bleibt die gleichzeitige Aufrechterhaltung von Genauigkeit und Effizienz in praktischen Anwendungen herausfordernd. Die derzeit fortschrittlichsten Methoden setzen tiefere Netzwerke ein, um eine bessere Leistung zu erzielen, was jedoch die Anwendung in mobilen Systemen erschwert, da diese Netzwerke mehr Parameter und eine höhere rechnerische Komplexität aufweisen. Daher schlagen wir ein effizientes Multitask-Neuronales Netzwerk, das Alignment & Tracking & Pose Network (ATPN), für die Gesichtsalignment, Gesichtsverfolgung und Kopfpose-Schätzung vor. Insbesondere zur Erzielung besserer Leistung mit weniger Schichten bei der Gesichtsalignment führen wir eine Shortcut-Verbindung zwischen Merkmalen der oberflächlichen und tiefen Schichten ein. Wir stellen fest, dass die Merkmale der oberflächlichen Schichten stark mit Gesichtsrandstrukturen korrelieren und somit wichtige strukturelle Informationen über das Gesicht liefern, was für die Gesichtsalignment entscheidend ist. Darüber hinaus generieren wir eine kostengünstige Heatmap basierend auf dem Ergebnis der Gesichtsalignment und integrieren diese mit den Merkmalen, um die Leistung der beiden anderen Aufgaben zu verbessern. Auf Basis der Heatmap kann das Netzwerk sowohl geometrische Informationen der Merkmalspunkte als auch Erscheinungsinformationen für die Kopfpose-Schätzung nutzen. Zudem liefert die Heatmap Aufmerksamkeitsinformationen für die Gesichtsverfolgung. Die Gesichtsverfolgung erspart zudem die wiederholte Durchführung der Gesichtserkennung für jeden Frame, was die Echtzeitfähigkeit für videobasierte Aufgaben erheblich steigert. Wir validieren ATPN experimentell an vier Benchmark-Datensätzen: WFLW, 300VW, WIDER Face und 300W-LP. Die experimentellen Ergebnisse zeigen, dass ATPN im Vergleich zu anderen leichten Modellen eine bessere Leistung erzielt, jedoch deutlich weniger Parameter und geringere rechnerische Komplexität aufweist.