HyperAIHyperAI
منذ 16 أيام

HumanTOMATO: توليد حركة الجسم الكاملة المتماشية مع النص

Shunlin Lu, Ling-Hao Chen, Ailing Zeng, Jing Lin, Ruimao Zhang, Lei Zhang, Heung-Yeung Shum
HumanTOMATO: توليد حركة الجسم الكاملة المتماشية مع النص
الملخص

تستهدف هذه الدراسة مهمة جديدة لتصنيع حركات جسدية شاملة تُوجه بالنص، حيث تأخذ وصفًا نصيًا معطى كمدخل وتسعى إلى إنتاج تعبيرات وجهية، وحركات يدوية، وحركات جسدية متناسقة وعالية الجودة ومتعددة التنويع في آنٍ واحد. تُعاني الدراسات السابقة في مهام إنشاء الحركة الموجهة بالنص من قَصَرَين رئيسيين: فهي تتجاهل الدور الحاسم للتحكم الدقيق في اليد والوجه في إنشاء حركات جسدية واقعية شاملة، كما تعاني من ضعف التوافق بين النص والحركة. وللتغلب على هذه القيود، نقترح إطارًا جديدًا يُسمى HumanTOMATO (إطار إنشاء حركة جسدية شاملة متماشية مع النص)، وهو أول محاولة معروفة في هذا المجال نحو إنشاء حركات شاملة قابلة للتطبيق. ولحل هذه المهمة الصعبة، تتضمن حلولنا تصميمين رئيسيين: (1) نموذج VQ-VAE هرمي شامل (يُعرف اختصارًا بـ H$^2$VQ) ونموذج GPT هرمي لاستعادة وإنشاء حركات جسدية ويدوية دقيقة باستخدام مجموعتين من الرموز المُهيكلتين؛ و(2) نموذج مُدرّب مسبقًا لتوافق النص والحركة، لمساعدة الحركة المُنشأة على التماسك بشكل صريح مع الوصف النصي المُدخل. وتوّفر التجارب الشاملة دليلًا قويًا على أن نموذجنا يتمتع بميزة واضحة من حيث جودة الحركات المُنشأة وتماسكها مع النص.

HumanTOMATO: توليد حركة الجسم الكاملة المتماشية مع النص | أحدث الأوراق البحثية | HyperAI