HyperAIHyperAI

Command Palette

Search for a command to run...

HumanTOMATO: توليد حركة الجسم الكاملة المتماشية مع النص

Shunlin Lu Ling-Hao Chen Ailing Zeng Jing Lin Ruimao Zhang Lei Zhang Heung-Yeung Shum

الملخص

تستهدف هذه الدراسة مهمة جديدة لتصنيع حركات جسدية شاملة تُوجه بالنص، حيث تأخذ وصفًا نصيًا معطى كمدخل وتسعى إلى إنتاج تعبيرات وجهية، وحركات يدوية، وحركات جسدية متناسقة وعالية الجودة ومتعددة التنويع في آنٍ واحد. تُعاني الدراسات السابقة في مهام إنشاء الحركة الموجهة بالنص من قَصَرَين رئيسيين: فهي تتجاهل الدور الحاسم للتحكم الدقيق في اليد والوجه في إنشاء حركات جسدية واقعية شاملة، كما تعاني من ضعف التوافق بين النص والحركة. وللتغلب على هذه القيود، نقترح إطارًا جديدًا يُسمى HumanTOMATO (إطار إنشاء حركة جسدية شاملة متماشية مع النص)، وهو أول محاولة معروفة في هذا المجال نحو إنشاء حركات شاملة قابلة للتطبيق. ولحل هذه المهمة الصعبة، تتضمن حلولنا تصميمين رئيسيين: (1) نموذج VQ-VAE هرمي شامل (يُعرف اختصارًا بـ H2^22VQ) ونموذج GPT هرمي لاستعادة وإنشاء حركات جسدية ويدوية دقيقة باستخدام مجموعتين من الرموز المُهيكلتين؛ و(2) نموذج مُدرّب مسبقًا لتوافق النص والحركة، لمساعدة الحركة المُنشأة على التماسك بشكل صريح مع الوصف النصي المُدخل. وتوّفر التجارب الشاملة دليلًا قويًا على أن نموذجنا يتمتع بميزة واضحة من حيث جودة الحركات المُنشأة وتماسكها مع النص.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
HumanTOMATO: توليد حركة الجسم الكاملة المتماشية مع النص | مستندات | HyperAI