
الهدف من هذا العمل هو التعرف على الوجه باستخدام المجموعات، أي تحديد ما إذا كانت مجموعتان من صور الوجه تعودان لنفس الشخص أم لا. حسب الأسلوب التقليدي، يتم حساب الوصف المميز للمجموعة كمتوسط أوصاف الصور الفردية للوجه داخل المجموعة. في هذه الورقة البحثية، نصمم هندسة شبكة عصبية تتعلم كيفية التجميع بناءً على جودة "البصرية" (الدقة، الإضاءة) و"المحتوى" (الأهمية النسبية للتقييم التمييزي). لهذا الغرض، نقترح شبكة متعددة الأعمدة (MN) تأخذ مجموعة من الصور (عدد الصور في المجموعة يمكن أن يختلف) كمدخلات وتتعلم كيفية حساب وصف مميز بحجم ثابت للمجموعة بأكملها. لتشجيع تمثيلات عالية الجودة، يتم وزن كل صورة مدخل بشكل أولي بناءً على جودتها "البصرية"، والتي تحددها وحدة تقييم الجودة الذاتية، ثم تتبعها إعادة ضبط ديناميكية بناءً على جودة "المحتوى" بالنسبة للصور الأخرى داخل المجموعة. يتم تعلم كلتا هاتين الجودتين ضمنياً أثناء التدريب للتقييم المميز للمجموعات. عند مقارنتها بالهندسات الرائدة سابقاً والمدربة بنفس القاعدة البيانات (VGGFace2)، تظهر شبكاتنا المتعددة الأعمدة تحسيناً بنسبة بين 2-6% في مقاييس التعرف على الوجه لـ IARPA IJB، وتتفوق على جميع الأساليب في هذه المقاييس.