شبكة التجميع العصبية لتمييز الوجه في الفيديو

يقدم هذا البحث شبكة تجميع عصبية (Neural Aggregation Network - NAN) للاعتراف بالوجوه في الفيديو. تقوم الشبكة بأخذ مقطع فيديو للوجه أو مجموعة من صور الوجه لشخص مع عدد متغير من صور الوجه كمدخلاتها، وتنتج تمثيلًا خاصًا ومكثفًا ذو أبعاد ثابتة للتعارف. يتكون الشبكة بأكملها من وحدتين. الوحدة الأولى هي وحدة التضمين المميز وهي عبارة عن شبكة عصبية ارتباطية عميقة (Convolutional Neural Network - CNN) تقوم بتحويل كل صورة وجه إلى متجه خصائص. أما الوحدة الثانية فهي وحدة التجميع التي تتكون من كتلتي انتباه تعملان على تجميع متجهات الخصائص بشكل متكيف لإنشاء متجه خصائص واحد داخل الحد المحدب الذي يربط بينها. نظرًا لآلية الانتباه، فإن عملية التجميع غير مرتبطة بترتيب الصور. يتم تدريب شبكتنا العصبية NAN باستخدام دالة تصنيف أو تحقق قياسية دون أي إشارة إشراف إضافية، وقد وجدنا أنها تتعلم بشكل تلقائي كيفية تشجيع صور الوجه ذات الجودة العالية بينما تقمع تلك ذات الجودة المنخفضة مثل الصور المشوشة والمحجبة والمشعة بشكل غير صحيح. أظهرت التجارب على مقاييس الأداء للاعتراف بالوجوه في الفيديو مثل IJB-A و YouTube Face و Celebrity-1000 أن شبكتنا NAN تتفوق باستمرار على طرق التجميع البسيطة وتحقق دقةً تعتبر الأفضل حتى الآن (state-of-the-art).