Command Palette
Search for a command to run...
شنت شبكة CNN: تعلّم الخصائص الثابتة للتعرف على الوجه بالأشعة تحت الحمراء القريبة والضوء المرئي
شنت شبكة CNN: تعلّم الخصائص الثابتة للتعرف على الوجه بالأشعة تحت الحمراء القريبة والضوء المرئي
He Ran Wu Xiang Sun Zhenan Tan Tieniu
الملخص
تميل التعرف على الوجه غير المتجانس (HFR) إلى مطابقة صور الوجه المُستخرجة من مختلف الوسائط الحسّاسة، وذلك بتطبيق مهم في مجالات التحقيقات الجنائية والأمن والقطاعات التجارية. ومع ذلك، يُعدّ التعرف على الوجه غير المتجانس مشكلة أكثر صعوبة من التعرف التقليدي على الوجه، وذلك بسبب التغيرات الكبيرة داخل الفئة بين صور الوجه غير المتجانسة، وعدم كفاية عينات التدريب المتوفرة لزوجيات صور الوجه عبر الوسائط المختلفة. تُقدّم هذه الورقة منهجية جديدة تُسمّى شبكة CNN واسرستاين (Wasserstein CNN، أو WCNN اختصارًا)، بهدف تعلّم ميزات غير متغيرة بين صور الوجه في الطيف تحت الأحمر القريب (NIR) والصورة البصرية (VIS)، أي في مجال التعرف على الوجه بين NIR وVIS. يتم تدريب الطبقات المنخفضة الترتيب في WCNN باستخدام صور الوجه الوافرة في الطيف البصري. أما الطبقة العالية الترتيب، فيتم تقسيمها إلى ثلاث أجزاء: طبقة NIR، وطبقة VIS، وطبقة مشتركة بين NIR وVIS. تهدف الطبقتان الأولى والثانية إلى تعلّم ميزات محددة للوسيلة (modality-specific)، بينما تم تصميم الطبقة المشتركة بين NIR وVIS لتعلّم فضاء فرعي مميز غير متغير حسب الوسيلة (modality-invariant feature subspace). تم إدخال مقياس المسافة واسرستاين (Wasserstein distance) إلى الطبقة المشتركة بين NIR وVIS لقياس الفرق بين توزيعات الميزات غير المتجانسة. وبالتالي، يهدف تعلّم WCNN إلى تقليل المسافة واسرستاين بين توزيع NIR وتوزيع VIS، لتحقيق تمثيل عميق مميز للوجه غير المتجانس. ولتجنب مشكلة التكيف الزائد (over-fitting) مع بيانات الوجه غير المتجانس ذات الحجم الصغير، تم إدخال ما يُعرف بـ "السابقة الارتباطية" (correlation prior) على طبقات الاتصال الكامل (fully-connected layers) في شبكة WCNN، بهدف تقليل حجم فضاء المعاملات. وتم تنفيذ هذه السابقة من خلال قيد منخفض الرتبة (low-rank constraint) ضمن شبكة متكاملة (end-to-end). يؤدي هذا الت formulación المشترك إلى خوارزمية تقليل متكرر (alternating minimization) لتمثيل الميزات العميقة خلال مرحلة التدريب، وحساب فعّال للبيانات غير المتجانسة خلال مرحلة الاختبار. وقد أظهرت تجارب واسعة على ثلاث قواعد بيانات صعبة للتعرف على الوجه بين NIR وVIS تفوقًا كبيرًا لشبكة Wasserstein CNN مقارنة بالطرق الرائدة في المجال.