شبكة عصبية خفيفة لتمثيل الوجه العميق مع التسميات الضوضائية

حجم النماذج المقترحة للشبكات العصبية التلافيفية (CNN) لتمييز الوجوه يزداد باستمرار ليتناسب بشكل أفضل مع كميات كبيرة من بيانات التدريب. عند الحصول على بيانات التدريب من الإنترنت، تكون العلامات ملتبسة وغير دقيقة في الغالب. يقدم هذا البحث إطار Light CNN لتعلم تمثيل مضغوط على بيانات الوجوه الضخمة التي تحتوي على علامات ضوضاء كثيرة. أولاً، نقدم تبايناً للتفعيل الأقصى (maxout activation)، يُعرف بـ Max-Feature-Map (MFM)، في كل طبقة تلافيفية من الشبكة العصبية التلافيفية. على عكس التفعيل الأقصى الذي يستخدم العديد من خرائط الميزات لتقريب دالة تفعيل محدبة تعسفية بشكل خطي، يقوم MFM بذلك عبر علاقة تنافسية. يمكن لميزة MFM أن تفصل بين الإشارات الضوضائية والمعلوماتية فضلاً عن القيام بدور اختيار الميزات بين خرائط الميزاتتين. ثانياً، تم تصميم ثلاثة شبكات بعناية للحصول على أداء أفضل مع الحد من عدد المعاملات وتكاليف الحساب. أخيراً، تم اقتراح طريقة إعادة تمهيد الدلالات (semantic bootstrapping) لجعل توقعات الشبكات أكثر اتساقًا مع العلامات الضوضائية. تظهر النتائج التجريبية أن الإطار المقترح يمكنه استخدام البيانات الضخمة الضوضائية لتعلم نموذج Light فعال من حيث تكاليف الحساب ومواقع التخزين. حقق النموذج الفردي الذي تم تعلمه باستخدام تمثيل 256-D نتائجًا رائدة في مجالها على مجموعة متنوعة من مقاييس الوجه دون الحاجة إلى التعديل الدقيق (fine-tuning). تم إطلاق الكود على https://github.com/AlfredXiangWu/LightCNN.