DigiFace-1M: مليون صورة رقمية للوجه للاعتراف بالوجه

تظهر نماذج التعرف على الوجه المتطورة دقة مثيرة للإعجاب، حيث تحقق أكثر من 99.8٪ في مجموعة بيانات "الوجوه المُلصق عليها تسميات في البرية" (LFW). يتم تدريب مثل هذه النماذج على مجموعات بيانات كبيرة تحتوي على ملايين صور الوجوه البشرية الحقيقية التي تم جمعها من الإنترنت. تعاني صور الوجوه المستخرجة من الويب من انحياز شديد (من حيث العرق، الإضاءة، المكياج، إلخ) وغالبًا ما تحتوي على ضوضاء في التسميات. وأهم من ذلك، يتم جمع صور الوجوه دون موافقة صريحة، مما يثير مخاوف أخلاقية. لتجنب هذه المشاكل، نقدم مجموعة بيانات اصطناعية كبيرة للتعرف على الوجه، وهي حصلنا عليها عن طريق رسم الوجوه الرقمية باستخدام خط أنابيب الرسومات الحاسوبية. أولاً، نثبت أن زيادة البيانات بشكل كبير يمكن أن تقلل بشكل كبير الفجوة بين المجال الاصطناعي والمجال الحقيقي. بفضل السيطرة الكاملة على خط أنابيب الرسم، ندرس أيضًا كيف يؤثر كل سمة (مثل اختلاف وضعية الوجه، والإكسسوارات والملمس) على الدقة. بالمقارنة مع SynFace، وهو طريقة حديثة تم تدريبها على صور وجوه اصطناعية تم إنشاؤها بواسطة GANs، فإننا نقلل معدل الخطأ في LFW بنسبة 52.5٪ (الدقة من 91.93٪ إلى 96.17٪). عن طريق تعديل الشبكة العصبية باستخدام عدد أقل من صور الوجوه الحقيقية التي يمكن الحصول عليها بموافقة معقولة، نحقق دقة مماثلة للطرق التي تم تدريبها على ملايين صور الوجوه الحقيقية.