HyperAIHyperAI
منذ 2 أشهر

FaceFormer: الرسوم المتحركة ثلاثية الأبعاد للوجه بقيادة الكلام باستخدام الترانسفورمرات

Fan, Yingruo ; Lin, Zhaojiang ; Saito, Jun ; Wang, Wenping ; Komura, Taku
FaceFormer: الرسوم المتحركة ثلاثية الأبعاد للوجه بقيادة الكلام باستخدام الترانسفورمرات
الملخص

الرسوم المتحركة ثلاثية الأبعاد للوجه المُحَرَّك بالكلام هي تحدي بسبب الهندسة المعقدة لوجوه البشر وندرة البيانات السمعية-البصرية ثلاثية الأبعاد. تركز الدراسات السابقة عادةً على تعلم خصائص الفونيمات (الوحدات الصوتية) على مستوى الفونيم في نوافذ صوتية قصيرة ذات سياق محدود، مما يؤدي أحيانًا إلى حركات شفاه غير دقيقة. لمعالجة هذا القصور، نقترح نموذجًا ذاتي الانحدار يعتمد على تقنية الترانسفورمر، يُسمى FaceFormer، والذي يقوم بترميز السياق السمعي طويل الأمد ويتنبأ بشكل ذاتي انحداري بسلسلة من الشبكات ثلاثية الأبعاد للوجه المتحرك. لمواجهة مشكلة نقص البيانات، ندمج التمثيلات السمعية التي تم تدريبها بشكل ذاتي مسبقًا. بالإضافة إلى ذلك، طورنا آليتين انتباهيتين متحيزتين تناسبان هذه المهمة الخاصة، وهما الانتباه متعدد الرؤوس (MH) العابر للأوضاع مع التحيز والانتباه الذاتي MH السببي مع استراتيجية ترميز الموضع الدوري. الأولى تقوم بتوفير التناسق الفعال بين الأوضاع السمعية والحركة، بينما الثانية توفر القدرة على التعامل مع سلاسل صوتية أطول. أظهرت التجارب الواسعة والدراسة الإدراكية للمستخدم أن نهجنا يتفوق على أفضل الأساليب الحالية. سيتم توفير الكود.请注意,这里有一些术语的翻译:- "Transformer" 被翻译为 "تقنية الترانسفورمر"。- "autoregressive model" 被翻译为 "نموذج ذاتي الانحدار"。- "3D face meshes" 被翻译为 "الشبكات ثلاثية الأبعاد للوجه".- "self-supervised pre-trained speech representations" 被翻译为 “التمثيلات السمعية التي تم تدريبها بشكل ذاتي مسبقًا”。- "biased cross-modal multi-head (MH) attention" 被翻译为 “الانتباه متعدد الرؤوس (MH) العابر للأوضاع مع التحيز”。- "biased causal MH self-attention with a periodic positional encoding strategy" 被翻译为 “الانتباه الذاتي MH السببي مع استراتيجية ترميز الموضع الدوري”。

FaceFormer: الرسوم المتحركة ثلاثية الأبعاد للوجه بقيادة الكلام باستخدام الترانسفورمرات | أحدث الأوراق البحثية | HyperAI