زُبَرَة فئة ديناميكية للتعرف على الوجه على نطاق واسع في الظروف الطبيعية

يُعدّ تعلُّم تمثيل تمييزي باستخدام مجموعات بيانات واسعة النطاق للوجوه في البيئات الطبيعية أمرًا بالغ الأهمية للتطبيقات الواقعية، ومع ذلك يظل هذا التحدي صعبًا. تكمن الصعوبات في جوانب متعددة، وتركّز هذه الدراسة على قيود الموارد الحاسوبية وتوزيع الفئات الطويلة الذيل (long-tailed class distribution). في الآونة الأخيرة، أظهر التعلُّم القائم على التصنيف باستخدام الشبكات العصبية العميقة ووظائف الخسارة المصممة بعناية أداءً جيدًا في التعرف على الوجوه. ولكن، تتزايد تكلفة الحوسبة والذاكرة بشكل خطي مع عدد الهويات (الفئات) في مجموعة التدريب، كما يعاني عملية التعلُّم من عدم توازن بين الفئات. في هذا العمل، نقترح استخدام "طابور فئات ديناميكي" (Dynamic Class Queue - DCQ) لمعالجة هذين المشكلين. بشكل محدد، يتم في كل تكرار خلال عملية التدريب اختيار مجموعة جزئية من الفئات للتعرف، وتُولَّد أوزان هذه الفئات ديناميكيًا في الوقت الفعلي، ثم تُخزَّن في طابور. وبما أن مجموعة جزئية فقط من الفئات تُختار في كل تكرار، فإن متطلبات الحوسبة تنخفض. وباستخدام خادم واحد دون استخدام التوازي النموذجي (model parallel)، نُثبت تجريبيًا على مجموعات بيانات واسعة النطاق أن استخدام 10٪ من الفئات يكفي لتحقيق أداء مشابه لاستخدام جميع الفئات. علاوةً على ذلك، تُولَّد أوزان الفئات ديناميكيًا بطريقة قصيرة المثال (few-shot)، مما يجعلها مناسبة للفئات الضعيفة التي تمتلك عددًا قليلاً من الأمثلة. ونُظهر تحسنًا ملحوظًا مقارنةً بنموذج قوي في أكبر مجموعة بيانات عامة متاحة، وهي مسابقة Megaface Challenge2 (MF2)، التي تحتوي على 672 ألف هوية، و88٪ منها تمتلك أقل من 10 أمثلة. يمكن الوصول إلى الكود عبر الرابط: https://github.com/bilylee/DCQ