FairFace: Datensatz für Gesichtsattribute mit ausgewogener Rasse, Geschlecht und Alter

Bestehende öffentliche Gesichtserkennungsdatasets sind stark auf kaukasische Gesichter ausgerichtet, während andere ethnische Gruppen (z.B. Lateinamerikaner) erheblich unterrepräsentiert sind. Dies kann zu inkonsistenten Modellgenauigkeiten führen, die Anwendbarkeit von Gesichtsanalyse-Systemen für Nicht-Weiße ethnische Gruppen einschränken und Forschungsergebnisse, die auf solchen verzerrten Daten basieren, negativ beeinflussen. Um den ethnischen Bias in diesen Datasets zu reduzieren, haben wir einen neuen Gesichtsbild-Datensatz konstruiert, der 108.501 Bilder enthält und eine ausgewogene ethnisches Zusammensetzung im Datensatz betont. Wir definieren sieben ethnische Gruppen: Weiße, Schwarze, Inder, Ostasiaten, Südostasiaten, Menschen vom Vorderen Orient und Lateinamerikaner. Die Bilder wurden aus dem YFCC-100M Flickr-Datensatz gesammelt und mit den ethnischen Gruppen, Geschlecht und Altersgruppen beschriftet. Evaluationen wurden sowohl auf bestehenden Gesichtsattribut-Datasets als auch auf neuen Bild-Datasets durchgeführt, um die Generalisierungsfähigkeit zu messen. Wir stellen fest, dass das Modell, das mit unserem Datensatz trainiert wurde, erheblich genauer ist und die Genauigkeit zwischen den ethnischen und Geschlechtsgruppen konsistent bleibt.