DigiFace-1M: 1 Million digitale Gesichtsbilder für die Gesichtserkennung

Zustandsderkunstliche Gesichtserkennungsmodelle zeigen beeindruckende Genauigkeit und erreichen über 99,8 % auf dem Labeled Faces in the Wild (LFW)-Datensatz. Solche Modelle werden an umfangreichen Datensätzen trainiert, die Millionen von echten menschlichen Gesichtsbildern aus dem Internet enthalten. Die von Web-Crawling gewonnenen Gesichtsbilder sind stark verzerrt (hinsichtlich Rasse, Beleuchtung, Make-up usw.) und enthalten häufig Label-Rauschen. Wichtiger noch ist, dass die Gesichtsbilder ohne explizite Einwilligung gesammelt werden, was ethische Bedenken aufwirft. Um solche Probleme zu vermeiden, stellen wir einen umfangreichen synthetischen Datensatz für die Gesichtserkennung vor, der durch das Rendern digitaler Gesichter mit einem Computergrafik-Pipeline-Verfahren erstellt wurde. Wir zeigen zunächst, dass eine aggressive Datenverstärkung den synthetisch-reellen Domänenunterschied erheblich verringern kann. Da wir vollständige Kontrolle über den Rendering-Prozess haben, untersuchen wir auch, wie jedes Attribut (z.B. Variationen in der Gesichtspose, Accessoires und Texturen) die Genauigkeit beeinflusst. Im Vergleich zu SynFace, einer jüngeren Methode, die auf mit GAN generierten synthetischen Gesichtern trainiert wurde, reduzieren wir den Fehlerquoten auf LFW um 52,5 % (Genauigkeit von 91,93 % auf 96,17 %). Durch das Feinjustieren des Netzes an einer kleineren Anzahl von echten Gesichtsbildern, die unter Einhaltung ethischer Standards vernünftig erhältlich wären, erreichen wir eine Genauigkeit, die vergleichbar ist mit Methoden, die an Millionen von echten Gesichtsbildern trainiert wurden.