Command Palette
Search for a command to run...
التحويلة المرتكزة على الفيديو ذاتية التدريب للتحجيم الوجهي في الفيديو
التحويلة المرتكزة على الفيديو ذاتية التدريب للتحجيم الوجهي في الفيديو
Yujiang Wang Mingzhi Dong Jie Shen Yiming Luo Yiming Lin Pingchuan Ma Stavros Petridis Maja Pantic
الملخص
تُقدّم هذه الورقة منهجية جديدة لعملية تجميع الوجوه في الفيديوهات باستخدام نموذج تحويلي مركّز حول الفيديو. في الدراسات السابقة، كان يتم غالبًا استخدام التعلّم التبايني (contrastive learning) لاستخلاص تمثيلات على مستوى الإطارات، ثم استخدام التجميع المتوسط (average pooling) لدمج الميزات على طول البُعد الزمني. لكن هذا النهج قد لا يُمكّن من التقاط الديناميكيات المعقدة في الفيديوهات بشكل كامل. علاوةً على ذلك، وعلى الرغم من التقدم الأخير في التعلّم التبايني القائم على الفيديو، إلا أن عددًا قليلاً من الدراسات حاولت تطوير تمثيلات ذاتية التعلّم (self-supervised) مُعدّة لدعم تجميع الوجوه في الفيديو، مما يُسهم في تحسين أداء هذه المهمة. لتجاوز هذه القيود، يعتمد منهجنا على استخدام نموذج تحويلي (transformer) لاستخلاص تمثيلات على مستوى الفيديو مباشرة، بحيث يمكنه التقاط الخصائص المتغيرة زمنيًا للوجوه في الفيديوهات بشكل أفضل، كما نقترح إطارًا ذاتي التعلّم مركّز حول الفيديو لتدريب نموذج التحويلي. كما نستعرض تجميع الوجوه في الفيديوهات ذات النظرة الذاتية (egocentric videos)، وهي مجال سريع النمو لم يُدرَس بعد في الأبحاث المتعلقة بتجميع الوجوه. ولتحقيق ذلك، نقدّم ونُطلق أول مجموعة بيانات كبيرة الحجم للفيديوهات ذات النظرة الذاتية المخصصة لتجميع الوجوه، ونُسمّيها EasyCom-Clustering. وقد قُمنا بتقييم المنهجية المقترحة على كل من مجموعة بيانات Big Bang Theory (BBT) الشهيرة، ومجموعة EasyCom-Clustering الجديدة. وأظهرت النتائج أن أداء نموذج التحويلي المركّز حول الفيديو تفوّق على جميع الطرق السابقة من أفضل النماذج المُتقدمة في كلا المعيارين، مما يُظهر فهمًا ذاتيًا بالانتباه (self-attentive) عميقًا للفيديوهات التي تحتوي على الوجوه.