Command Palette
Search for a command to run...
شبكية عصبية خفيفة للتمثيل العميق للوجه باستخدام علامات غير دقيقة
شبكية عصبية خفيفة للتمثيل العميق للوجه باستخدام علامات غير دقيقة
Wu Xiang He Ran Sun Zhenan Tan Tieniu
الملخص
تزايد حجم نماذج الشبكات العصبية التلافيفية (CNN) المُقترحة لتمييز الوجوه باستمرار، بهدف التكيف بشكل أفضل مع كميات كبيرة من بيانات التدريب. عندما تُجمع بيانات التدريب من الإنترنت، فإن التسميات المرتبطة بها غالبًا ما تكون غامضة وغير دقيقة. تقدم هذه الورقة إطار عمل يُسمى Light CNN لاستخلاص تمثيل مكثف (embedding) من بيانات الوجوه على نطاق واسع التي تحتوي على كميات هائلة من التسميات الضوضائية. أولاً، نُدخل نوعًا جديدًا من وظائف التنشيط يُدعى Max-Feature-Map (MFM)، كمُعدّل لوظيفة maxout، في كل طبقة تلافيفية ضمن الشبكة. على عكس وظيفة maxout التي تستخدم العديد من الخرائط المميزة لتقريب دالة تنشيط محددة بشكل خطي، فإن MFM تحقق هذا التقريب من خلال علاقة تنافسية بين الخرائط. وبذلك، يمكن لـ MFM أن يُميّز بين الإشارات الضوضائية والإشارات المفيدة، كما يُؤدي دورًا في اختيار الميزات بين خريطتين مميزتين. ثانيًا، تم تصميم ثلاث شبكات بعناية لتحقيق أداءً أفضل مع تقليل عدد المعلمات والتكاليف الحسابية. ثالثًا، تم اقتراح طريقة تُسمى "الاستقراء الدلالي" (semantic bootstrapping) لجعل تنبؤات الشبكات أكثر اتساقًا مع التسميات الضوضائية. أظهرت النتائج التجريبية أن الإطار المُقترح يستطيع استغلال بيانات ضخمة ومعتمدة على تسميات ضوضائية لاستخلاص نموذج خفيف (Light) يتميز بكفاءة عالية من حيث التكاليف الحسابية ومساحة التخزين. كما حقق النموذج الواحد المُدرّب باستخدام تمثيل ثنائي الأبعاد بطول 256 بعدًا نتائج متميزة على مختلف معايير تقييم تمييز الوجوه دون الحاجة إلى التحسين الدقيق (fine-tuning). وتم إتاحة الكود المصدر على الرابط: https://github.com/AlfredXiangWu/LightCNN.