3FabRec: Schnelle Few-shot-Gesichtsalignierung durch Rekonstruktion

Aktuelle überwachte Methoden zur Gesichtslandmarkendetektion erfordern eine große Menge an Trainingsdaten und können aufgrund der hohen Anzahl an Parametern überanpassung (Overfitting) an bestimmte Datensätze aufweisen. Wir stellen eine semi-supervised Methode vor, deren zentrale Idee darin besteht, zunächst implizites Gesichtswissen aus den heute verfügbaren großen Mengen an unbeschrifteten Gesichtsbildern zu generieren. In einer ersten, vollständig unsupervised Phase trainieren wir einen adversarialen Autoencoder, um Gesichter über eine niedrigdimensionale Gesichts-Embedding-Repräsentation wiederherzustellen. In einer zweiten, überwachten Phase integrieren wir Transfer-Schichten in den Decoder, um die Generierung von Farbbildern auf die Vorhersage von Landmark-Heatmaps umzurichten. Unser Framework (3FabRec) erreicht state-of-the-art Ergebnisse auf mehreren gängigen Benchmarks und ist vor allem in der Lage, eine beeindruckende Genauigkeit auch bei äußerst kleinen Trainingsmengen von lediglich 10 Bildern aufrechtzuerhalten. Da die integrierten Schichten nur eine geringe Anzahl zusätzlicher Parameter zum Decoder hinzufügen, läuft die Inferenz auf einer GPU mit mehreren hundert FPS.