FaceDiffuser: إنشاء الرسوم المتحركة ثلاثية الأبعاد للوجه باستخدام التوهج

إن إنشاء الرسوم المتحركة ثلاثية الأبعاد للوجه بقيادة الكلام كان مهمة صعبة في الصناعة والبحث على حد سواء. تركز الأساليب الحديثة بشكل أساسي على طرق التعلم العميق الحتمية، مما يعني أن الناتج سيكون دائمًا متطابقًا عند تقديم مدخلات كلامية معينة. ومع ذلك، في الواقع، فإن الإشارات الوجهية غير اللفظية المنتشرة في جميع أنحاء الوجه هي بطبيعتها غير حتمية. بالإضافة إلى ذلك، يركز معظم النهج على مجموعات البيانات المستندة إلى رؤوس ثلاثية الأبعاد (3D vertex)، وقليل جدًا منها يتوافق مع خطوط الأنimation الوجهية القائمة باستخدام الشخصيات المجهزة بالعظام المتحركة (rigged characters). لحل هذه المشكلات، نقدم FaceDiffuser، وهو نموذج تعلم عميق غير حتمي لإنشاء الرسوم المتحركة للوجه بقيادة الكلام، وقد تم تدريبه باستخدام كل من مجموعات البيانات المستندة إلى رؤوس ثلاثية الأبعاد (3D vertex) ومجموعات البيانات المستندة إلى أشكال التداخل (blendshape). تعتمد طريقتنا على تقنية التفتيت (diffusion) وتستخدم نموذج HuBERT المُدرب مسبقًا للتمثيل الكبير للكلام لترميز المدخل السمعي. وفيما نعلم، نحن أول من يستخدم طريقة التفتيت لهذا الغرض في إنشاء الرسوم المتحركة ثلاثية الأبعاد للوجه بقيادة الكلام. قمنا بإجراء تحليلات موضوعية وذاتية شاملة وأظهرنا أن طريقتنا تحقق نتائج أفضل أو مماثلة مقارنة بأحدث الأساليب. كما نقدم مجموعة بيانات جديدة داخلية مستندة إلى شخصيات مجهزة بالعظام المتحركة باستخدام أشكال التداخل (blendshape). نوصي بمتابعة الفيديو المرفق الإضافي. سيتم توفير الكود ومجموعة البيانات بشكل عام.