SynthDistill: التعرف على الوجه باستخدام التقطير المعرفي من البيانات المصنعة

شبكات التعرف على الوجه المتطورة غالبًا ما تكون مكلفة من الناحية الحسابية ولا يمكن استخدامها في التطبيقات المحمولة. يتطلب تدريب نماذج التعرف على الوجه الخفيفة أيضًا مجموعات بيانات كبيرة مصنفة حسب الهوية. وفي الوقت نفسه، هناك مخاوف بشأن الخصوصية والأخلاق عند جمع واستخدام مجموعات بيانات التعرف على الوجه الكبيرة. بينما يعد إنشاء مجموعات بيانات اصطناعية لتدريب نماذج التعرف على الوجه خيارًا بديلًا، فإن تحديًا كبيرًا يكمن في إنتاج البيانات الاصطناعية بتنوع كافٍ داخل الفئة الواحدة. بالإضافة إلى ذلك، لا يزال هناك فارق كبير بين أداء النماذج التي تم تدريبها على البيانات الحقيقية والبيانات الاصطناعية.في هذه الورقة البحثية، نقترح إطار عمل جديد (يُطلق عليه SynthDistill) لتدريب نماذج التعرف على الوجه الخفيفة من خلال استخلاص المعرفة من نموذج التعرف على الوجه المدرب سابقًا باستخدام البيانات الاصطناعية. نستخدم شبكة توليد وجوه مدربة سابقًا لإنتاج صور وجوه اصطناعية واستخدام الصور المُنتجة لتعلم شبكة طالب خفيفة. نستخدم صور الوجوه الاصطناعية دون علامات هوية، مما يخفف المشاكل المتعلقة بإنتاج التنوع داخل الفئة في مجموعات البيانات الاصطناعية. بدلاً من ذلك، نقترح استراتيجية عينة ديناميكية جديدة من المساحة الكامنة الوسيطة لشبكة توليد الوجوه لتشمل تنوعات جديدة للصور الصعبة أثناء استكشاف صور وجوه جديدة في الدفعة التدريبية.تظهر النتائج على خمسة مجموعات بيانات مختلفة للتعرف على الوجه تفوق نموذجنا الخفيف مقارنةً بالنماذج التي تم تدريبها على مجموعات البيانات الاصطناعية السابقة، حيث حقق دقة تحقق بنسبة 99.52٪ على مجموعة بيانات LFW مع شبكة خفيفة. كما تُظهر النتائج أن الإطار العمل المقترح يقلل بشكل كبير من الفارق بين التدريب باستخدام البيانات الحقيقية والاصطناعية. تم إطلاق الشفرة المصدر علنًا لتكرار التجارب.