vor 17 Tagen

Pixel-in-Pixel Net: Ein Schritt hin zu effizienter Gesichtsmerkmalserkennung in natürlichen Umgebungen

Haibo Jin, Shengcai Liao, Ling Shao

Abstract

Kürzlich sind Heatmap-Regression-Modelle aufgrund ihrer herausragenden Leistung bei der Lokalisierung von Gesichtslandmarken zunehmend beliebt. Dennoch bestehen weiterhin drei wesentliche Probleme bei diesen Modellen: (1) hohe Rechenkosten, (2) fehlende explizite globalen Formbeschränkungen und (3) häufig auftretende Domänenunterschiede (Domain Gaps). Um diese Herausforderungen zu bewältigen, schlagen wir das Pixel-in-Pixel-Netzwerk (PIPNet) für die Gesichtslandmarkenerkennung vor. Das vorgeschlagene Modell verfügt über einen neuartigen Detektionskopf basierend auf Heatmap-Regression, der gleichzeitig Score- und Offset-Vorhersagen auf niedrigauflösenden Merkmalskarten durchführt. Dadurch entfällt die Notwendigkeit wiederholter Upsampling-Schichten, was die Inference-Zeit erheblich reduziert, ohne die Modellgenauigkeit zu beeinträchtigen. Darüber hinaus wird ein einfacher, aber effektiver Nachbarschaftsregressionsmodul vorgestellt, das lokale Beschränkungen durch die Fusion von Vorhersagen benachbarter Landmarken enforces und somit die Robustheit des neuen Detektionskopfes verbessert. Um die Fähigkeit von PIPNet zur generalisierenden Leistung über Domänen hinweg weiter zu steigern, schlagen wir ein selbsttrainierendes Verfahren mit Curriculum vor. Diese Trainingsstrategie ermöglicht es, zuverlässigere Pseudolabels aus unlabeled Daten verschiedener Domänen zu extrahieren, indem zunächst eine einfachere Aufgabe bearbeitet wird und die Schwierigkeit schrittweise erhöht wird, um präzisere Labels zu generieren. Umfangreiche Experimente belegen die Überlegenheit von PIPNet, das in der überwachten Einstellung auf drei von sechs gängigen Benchmarks die bisher besten Ergebnisse erzielt. Auch auf zwei Cross-Domain-Testsets werden konsistent bessere Ergebnisse im Vergleich zu Baseline-Modellen erzielt. Besonders hervorzuheben ist, dass die leichtgewichtige Variante von PIPNet mit 35,7 FPS auf der CPU und 200 FPS auf der GPU läuft, während sie dennoch eine konkurrenzfähige Genauigkeit im Vergleich zu den aktuellen State-of-the-Art-Methoden aufrechterhält. Der Quellcode von PIPNet ist unter https://github.com/jhb86253817/PIPNet verfügbar.