Müssen wir wirklich Millionen von Gesichtern sammeln, um effektive Gesichtserkennung zu erreichen?

Die Fähigkeiten der Gesichtserkennung haben kürzlich außergewöhnliche Fortschritte gemacht. Obwohl dieser Fortschritt zumindest teilweise auf die explosionsartige Erhöhung der Trainingsdatenmengen zurückzuführen ist – riesige Anzahlen von Gesichtsbildern, die heruntergeladen und für die Identifizierung beschriftet wurden – ist es nicht klar, ob die immense Aufgabe, so viele Bilder zu sammeln, tatsächlich notwendig ist. Wir schlagen eine weitaus zugänglichere Methode zur Erhöhung der Trainingsdatenmengen für Gesichtserkennungssysteme vor. Anstatt manuell weitere Gesichter zu ernten und zu beschriften, synthetisieren wir sie einfach. Wir beschreiben innovative Methoden zur Bereicherung eines vorhandenen Datensatzes mit wichtigen Variationen des Gesichtsaussehens durch Manipulation der enthaltenen Gesichter. Diese Synthesemethode wird ferner angewendet, wenn Abfragebilder unter Verwendung eines Standard-Convolutional Neural Networks (CNN) abgeglichen werden. Die Auswirkungen des Trainings und Testens mit synthetisierten Bildern werden umfassend an den Benchmarks LFW und IJB-A (Verifikation und Identifizierung) sowie Janus CS2 getestet. Die durch unseren Ansatz erzielten Leistungen entsprechen den neuesten Stand der Technik-Ergebnissen, die von Systemen berichtet wurden, die auf Millionen heruntergeladener Bilder trainiert wurden.