Einheitliche Generierung von Negativen Paaren zur Erzeugung eines gut trennenden Merkmalsraums für die Gesichtserkennung

Das Ziel der Gesichtserkennung (FR) kann als ein Problem der Paarähnlichkeitsoptimierung betrachtet werden, bei dem die Ähnlichkeitsmenge $\mathcal{S}^p$ für positive Paare maximiert und die Ähnlichkeitsmenge $\mathcal{S}^n$ für negative Paare minimiert wird. Ideal wäre es, dass FR-Modelle einen gut diskriminierenden Merkmalsraum (WDFS) bilden, der die Bedingung $\inf{\mathcal{S}^p} > \sup{\mathcal{S}^n}$ erfüllt. Im Kontext des WDFS können die existierenden Paradigmen des tiefen Merkmalslernens (d.h., Metrik- und Klassifikationsverluste) als eine einheitliche Perspektive auf verschiedene Strategien zur Paarerzeugung (PG) ausgedrückt werden. Leider ist es im Metrikverlust (ML) aufgrund der begrenzten Minibatch-Größe in jeder Iteration nicht möglich, negative Paare zu generieren, die alle Klassen berücksichtigen. Im Gegensatz dazu ist es im Klassifikationsverlust (CL) schwierig, extrem schwierige negative Paare zu generieren, da die Klassen-Gewichtungsvektoren ihrem Zentrum zustreben. Dies führt zu einer Diskrepanz zwischen den beiden Ähnlichkeitsverteilungen der abgetasteten Paare und aller negativen Paare. Daher schlägt dieser Artikel eine einheitliche Strategie zur Erzeugung negativer Paare (UNPG) vor, indem zwei PG-Strategien (d.h., MLPG und CLPG) aus einer einheitlichen Perspektive kombiniert werden, um diese Diskrepanz zu mildern. UNPG nutzt nützliche Informationen über negative Paare durch MLPG, um das Manko von CLPG zu überwinden. Darüber hinaus enthält sie das Filtern der Ähnlichkeiten rauschhafter negativer Paare, um eine verlässliche Konvergenz und verbesserte Leistung sicherzustellen. Ausführliche Experimente zeigen die Überlegenheit von UNPG durch erstklassige Ergebnisse bei aktuellen Verlustfunktionen auf öffentlich zugänglichen Benchmark-Datensätzen. Unser Code und unsere vortrainierten Modelle sind öffentlich verfügbar.