X2Face: شبكة لتحكم توليد الوجه باستخدام الصور والصوت ورموز الوضع

الهدف من هذا البحث هو تقديم نموذج شبكة عصبية يمكنه التحكم في وضعية التعبير وتعبير الوجه المُعطى باستخدام وجه آخر أو وسيلة أخرى (مثل الصوت). ويمكن بعد ذلك استخدام هذا النموذج في تحرير مقاطع فيديو وصور خفيفة الوزن وبدرجة عالية من التعقيد. ونقدم في هذا العمل ثلاث إسهامات رئيسية. أولاً، نُقدّم شبكة تُسمى X2Face، التي تُمكّن من التحكم في وجه مصدر (يُحدَّد بواسطة إطار واحد أو أكثر) باستخدام وجه آخر في إطار تشغيلي لإنتاج إطار مُولَّد يحمل هوية الوجه المصدر، لكنه يحمل وضعية التعبير والتعبير من الوجه في الإطار التشغيلي. ثانيًا، نقترح طريقة لتدريب الشبكة بشكل ذاتي تمامًا باستخدام مجموعة كبيرة من بيانات الفيديو. ثالثًا، نُظهر أن عملية التوليد يمكن أن تُقود بواسطة وسائط أخرى، مثل الصوت أو رموز الوضعية، دون الحاجة إلى أي تدريب إضافي للشبكة. وتم مقارنة نتائج التوليد عند التحكم بوجه باستخدام وجه آخر مع أحدث الطرق ذاتية التدريب (self-supervised) والمعتمدة على التدريب المُراقب (supervised). ونُبيّن أن نهجنا أكثر مقاومةً من الطرق الأخرى، إذ يعتمد على افتراضات أقل فيما يتعلق ببيانات الإدخال. كما نُقدّم أمثلة على استخدام إطار العمل الخاص بنا في تحرير الوجه في مقاطع الفيديو.