DupNet: نحو شبكة عصبية تلافيفية كمية جدًا بحجم صغير جدًا ودقة محسّنة للكشف عن الوجه

نشر كاشفات الوجه المستندة إلى التعلم العميق على الأجهزة الحافة يُعد مهمة صعبة نظرًا لقيود الموارد الحسابية المحدودة. وعلى الرغم من أن تحويل أوزان شبكة صغيرة جدًا إلى ثنائية (Binarization) يُحقق كفاءة مميزة في حجم النموذج (مثل 240.9 كيلوبايت لنموذج IFQ-Tinier-YOLO)، إلا أن هذا الحجم لا يزال كبيرًا جدًا ليناسب الأجهزة المدمجة التي تفرض قيودًا صارمة على الذاكرة. في هذه الورقة، نقترح نموذج DupNet الذي يتكون من جزأين. أولاً، نستخدم أوزانًا ذات قنوات مكررة في الطبقات التي تستهلك كميات كبيرة من الأوزان لتقليل حجم النموذج. ثانيًا، بالنسبة للطبقات الحساسة للتكميم التي تؤدي عملية التكميم فيها إلى انخفاض ملحوظ في الدقة، نقوم بتكرار خرائط الميزات المدخلة لها. وبذلك نتمكن من استخدام عدد أكبر من قنوات الأوزان لتطبيق عمليات التحويل (convolution) التي تنتج مخرجات أكثر تمثيلًا. بناءً على هذا المبدأ، نقترح كاشف وجه صغير جدًا يُسمى DupNet-Tinier-YOLO، والذي يقل حجمه بنسبة 6.5 مرة، ويقل تعقيد حساباته بنسبة 42.0%، مع تحقيق دقة كشف أعلى بـ 2.4% مقارنةً بـ IFQ-Tinier-YOLO. وعند المقارنة مع النموذج الأصلي Tiny-YOLO ذي الدقة الكاملة، يوفر DupNet-Tinier-YOLO وفرًا بنسبة 1,694.2 مرة في حجم النموذج، وبنسبة 389.9 مرة في التعقيد الحسابي، مع انخفاض بسيط في دقة الكشف بنسبة 4.0% فقط (0.880 مقابل 0.920). علاوةً على ذلك، يبلغ حجم DupNet-Tinier-YOLO 36.9 كيلوبايت فقط، وهو أصغر كاشف للوجه العميق معروف لدينا حتى الآن.