تعلم معاكسة قليل الإطارات لنموذج رأس متحدث عصبي واقعي

أظهرت العديد من الدراسات الحديثة كيف يمكن الحصول على صور لرأس الإنسان ذات واقعية عالية من خلال تدريب شبكات العصبونات التلافيفية على إنتاجها. ومع ذلك، لتحقيق نموذج رأس متحدث مخصص، تتطلب هذه الدراسات تدريبًا على مجموعة كبيرة من صور شخص واحد. ولكن في العديد من السيناريوهات العملية، يجب تعلم مثل هذه النماذج المخصصة للشخص من عدد قليل جدًا من الصور، وقد يكون حتى صورة واحدة فقط. في هذا السياق، نقدم نظامًا يتمتع بقدرة القليل من الطلقات (few-shot). يقوم النظام بإجراء تعلم متعدد طويل الأمد على مجموعة كبيرة من مقاطع الفيديو، وبعد ذلك يكون قادرًا على تحويل تعلم النماذج العصبية للرأس المتحدث لأشخاص لم يُرَوا سابقًا إلى مشاكل تدريب معادية (adversarial) باستخدام مولدات ومميزات ذات طاقة عالية. بشكل حاسم، يتمكن النظام من تهيئة معلمات المولد والمميز بطريقة خاصة لكل شخص، بحيث يمكن أن يستند التدريب إلى عدد قليل جدًا من الصور ويتم بسرعة، رغم الحاجة إلى ضبط عشرات الملايين من المعلمات. نوضح أن هذا النهج قادر على تعلم نماذج رأس متحدثة ذات واقعية عالية ومخصصة لأشخاص جدد وحتى لوحات فنية.