Steuerbare und geführte Gesichtssynthese für unbeschränkte Gesichtserkennung

Obwohl erhebliche Fortschritte in der Gesichtserkennung (Face Recognition, FR) erzielt wurden, bleibt die FR in unbeschränkten Umgebungen herausfordernd, da eine Domänenlücke zwischen semi-beschränkten Trainingsdatensätzen und unbeschränkten Testszenarien besteht. Um dieses Problem anzugehen, schlagen wir ein steuerbares Gesichtssynthesemodell (Controllable Face Synthesis Model, CFSM) vor, das die Verteilung von Ziel-Datensätzen in einem Stil-Latentraum nachahmen kann. CFSM lernt einen linearen Unterraum mit orthogonalen Basen im Stil-Latentraum und ermöglicht dabei präzise Kontrolle über die Vielfalt und das Maß der Synthese. Zudem kann das vortrainierte Synthesemodell durch das FR-Modell geleitet werden, wodurch die resultierenden Bilder für die Trainingsphase des FR-Modells nutzbringender werden. Darüber hinaus werden die Verteilungen der Ziel-Datensätze durch die gelernten orthogonalen Basen charakterisiert, die zur Messung der Verteilungsimilarität zwischen Gesichts-Datensätzen genutzt werden können. Unser Ansatz erzielt signifikante Leistungssteigerungen auf unbeschränkten Benchmarks wie IJB-B, IJB-C, TinyFace und IJB-S (um +5,76 % bei Rank-1).