Fake It Till You Make It: Gesichtsanalyse in der Wildnis unter Verwendung von synthetischen Daten allein

Wir zeigen, dass es möglich ist, gesichtsbezogene Computer Vision-Aufgaben in natürlicher Umgebung (in the wild) ausschließlich mit synthetischen Daten durchzuführen. Die Forschungsgemeinschaft hat bereits lange von der Synthese von Trainingsdaten mittels Grafiktechnologien profitiert, doch die Domänenlücke zwischen realen und synthetischen Daten blieb ein zentrales Problem, insbesondere bei menschlichen Gesichtern. Forscher haben versucht, diese Lücke durch Datenmischung, Domänenanpassung und domänenadversariales Lernen zu schließen, doch wir zeigen, dass es möglich ist, synthetische Daten mit minimaler Domänenlücke zu erzeugen, sodass Modelle, die ausschließlich auf synthetischen Daten trainiert wurden, gut auf reale, in-the-wild-Datensätze generalisieren. Wir beschreiben, wie man einen parametrischen 3D-Gesichtsmodell, der prozedural generiert wird, mit einer umfassenden Bibliothek handgefertigter Assets kombiniert, um Trainingsbilder mit beispiellosem Realismus und Vielfalt zu rendern. Wir trainieren maschinelle Lernsysteme für gesichtsbezogene Aufgaben wie Landmarkenlokalisierung und Gesichtsparsing und zeigen, dass synthetische Daten sowohl die Genauigkeit realer Daten erreichen können als auch neue Ansätze ermöglichen, bei denen manuelle Annotationen unmöglich wären.