
要約
既存の公開顔データセットは、白人(コーカソイド)の顔に強く偏っており、他の人種(例:ラティーノ)は著しく少ない割合で含まれています。これにより、モデルの精度が一貫性を欠き、非白人人種グループに対する顔解析システムの適用範囲が制限され、またそのような偏ったデータに基づく研究結果に悪影響を及ぼす可能性があります。これらのデータセットにおける人種バイアスを軽減するため、私たちは新しい顔画像データセットを構築しました。このデータセットには108,501枚の画像が含まれており、人種構成のバランスを重視しています。7つの人種グループを定義しました:白人、黒人、インド人、東アジア人、東南アジア人、中東の人々、およびラティーノです。画像はYFCC-100M Flickrデータセットから収集され、人種、性別、年齢グループでラベリングされました。評価は既存の顔属性データセットだけでなく新規画像データセットでも行われました。その目的は一般化性能を測定することです。私たちのデータセットから訓練されたモデルは新規データセットにおいて大幅に高い精度を示し、また各人種と性別グループ間での精度の一貫性も確認されました。