WebFace260M: معيار يكشف قوة التعرف على الوجه العميق بحجم ملايين المُدخلات

في هذه الورقة، نقدم معيارًا جديدًا بحجم مليون وحدة يحتوي على بيانات تدريب بـ 4 ملايين هوية و260 مليون وجه ملوثة (WebFace260M)، وبيانات نظيفة بـ 2 مليون هوية و42 مليون وجه (WebFace42M)، بالإضافة إلى بروتوكول تقييم مُصمم بدقة يأخذ بعين الاعتبار القيود الزمنية. أولاً، نقوم بجمع قائمة بأسماء 4 ملايين شخص وتنزيل 260 مليون وجه من الإنترنت. ثم نصمم مسارًا تلقائيًا للتنظيف باستخدام التدريب الذاتي (CAST) لتنقية كمية كبيرة من بيانات WebFace260M، والذي يُعد فعّالاً وقابلًا للتوسع. إلى حد معرفتنا، فإن WebFace42M النظيفة تمثل أكبر مجموعة بيانات عامة متاحة لتمييز الوجوه، ونأمل أن نضيّق الفجوة بين الأوساط الأكاديمية والصناعية في هذا المجال. بالاعتماد على السيناريوهات الواقعية، نُنشئ بروتوكول تقييم لتمييز الوجوه تحت قيود زمنية أثناء الاستدلال (FRUITS) ومجموعة اختبار مخصصة لتقييم شامل لمطابقات الوجوه.باستخدام هذا المعيار، نتعمق في دراسة مشكلات تمييز الوجوه بحجم مليون وحدة. تم تطوير إطار توزيعي لتدريب نماذج تمييز الوجوه بكفاءة دون التأثير على الأداء. وبفضل بيانات WebFace42M، نقلل من معدل الفشل بنسبة 40% نسبيًا على مجموعة IJB-C الصعبة، ونحصل على المرتبة الثالثة بين 430 إدخالًا في اختبار NIST-FRVT. حتى بيانات بنسبة 10% (WebFace4M) تُظهر أداءً أفضل مقارنةً بالبيانات العامة المتاحة. علاوةً على ذلك، تم إنشاء قواعد مقارنة شاملة على مجموعة اختبار غنية بالسمات لدينا وفقًا لبروتوكول FRUITS-100ms/500ms/1000ms، تشمل عائلات MobileNet، EfficientNet، AttentionNet، ResNet، SENet، ResNeXt وRegNet. يمكن زيارة موقع المعيار عبر الرابط: https://www.face-benchmark.org.