EMAGE: نحو توليد حركات مرافقة موحدة وشاملة عبر نمذجة الصوت والحركة المقنعة والمخفية

نقترح إطار عمل EMAGE، وهو نظام ل动生成全身人类手势,包括面部、局部身体、手部和整体运动。为了实现这一目标,我们首先介绍了BEAT2(BEAT-SMPLX-FLAME),这是一个新的基于网格的综合共语言数据集。BEAT2结合了MoShed SMPL-X身体模型和FLAME头部参数,并进一步优化了头部、颈部和手指运动的建模,提供了一个社区标准化的高质量3D动作捕捉数据集。EMAGE在训练过程中利用遮罩身体手势先验来提高推理性能。它涉及一个遮罩音频手势变换器,有助于在音频到手势生成和遮罩手势重建之间进行联合训练,从而有效地编码音频和身体手势提示。然后,从遮罩手势中编码的身体提示分别用于生成面部和身体运动。此外,EMAGE自适应地融合了来自音频节奏和内容的语音特征,并利用四个组合VQ-VAE来增强结果的真实性和多样性。实验表明,EMAGE以最先进的性能生成综合手势,并且能够灵活接受预定义的空间时间手势输入,生成完整的、与音频同步的结果。我们的代码和数据集可在以下网址获取:https://pantomatrix.github.io/EMAGE/优化后的翻译如下:نقترح إطار العمل EMAGE، وهو نظام لتوليد حركات الجسم الكاملة للإنسان، تشمل الحركات الوجهية والجزئية للجسم وأطراف اليدين والحركات الشاملة. لتحقيق هذا الهدف، نقدم أولاً BEAT2 (BEAT-SMPLX-FLAME)، وهو مجموعة بيانات جديدة شاملة على مستوى الشبكة (الشبكة) للحركات المشتركة مع الكلام. يجمع BEAT2 بين جسم MoShed SMPL-X ومتغيرات رأس FLAME ويحسن أيضًا نمذجة حركات الرأس والرقبة والأصابع، مما يقدم مجموعة بيانات ملتقطة بالحركة ثلاثية الأبعاد ذات جودة عالية ومعيارية للمجتمع العلمي. يستخدم EMAGE خلال التدريب مقدمي البيانات الأولية للحركات المقنعة للجسم لتعزيز أداء الاستدلال. يتضمن الإطار محول الحركات الصوتية المقنعة (Masked Audio Gesture Transformer)، مما يسهل التدريب المشترك على توليد الحركات من الصوت وإعادة بناء الحركات المقنعة لتحسين ترميز التلميحات الصوتية وحركات الجسم. يتم استخدام التلميحات الجسدية المرمزة من الحركات المقنعة بشكل منفصل لتوليد الحركات الوجهية والجسدية. بالإضافة إلى ذلك، يقوم EMAGE بدمج خصائص الكلام بشكل متكيف من إيقاع الصوت ومحتواه واستخدام أربعة VQ-VAEs تركيبية لتعزيز دقة وتنوع النتائج. تظهر التجارب أن EMAGE يولد حركات شاملة بأداء رائد في مجاله وأنه مرناً في قبول مدخلات الحركات المكانية الزمنية المحددة مسبقًا، مما يمكنه من إنتاج نتائج كاملة ومتناسقة مع الصوت. يمكن الوصول إلى شفرتنا ومجموعتنا من البيانات عبر الرابط التالي: https://pantomatrix.github.io/EMAGE/