HyperAIHyperAI

Command Palette

Search for a command to run...

TM2T: النمذجة العشوائية والمجزأة للإنتاج المتبادل لحركات الإنسان ثلاثية الأبعاد والنصوص

Chuan Guo Xinxin Zuo Sen Wang Li Cheng

الملخص

مستوحدين من الروابط القوية بين الرؤية واللغة، وهما وسيلتان حميميتان للإحساس والتواصل لدى الإنسان، تهدف هذه الورقة إلى استكشاف إنشاء حركات جسدية ثلاثية الأبعاد للإنسان من النصوص، وكذلك المهمة المتبادلة لها، والتي يتم اختصارها على التوالي بـ text2motion و motion2text. لمعالجة التحديات الحالية، وبشكل خاص تمكين إنشاء حركات متعددة ومتميزة من نفس النص، ولتجنب إنتاج سلاسل أوضاع ثابتة غير مرغوب فيها، نقترح استخدام رمز الحركة (motion token)، وهو تمثيل حركي متقطع ومكثف. هذا يوفر ميدانًا متساويًا عند النظر إلى الإشارات الحركية والإشارات النصية معًا، حيث يتم التعامل مع رموز الحركة والنص كرموز حركية ونصية على التوالي. علاوة على ذلك، يتم دمج وحدة motion2text الخاصة بنا في عملية التناسق العكسي لأنبوب تدريب text2motion الخاص بنا، حيث سيتم معاقبة الانحراف الكبير بين النص المُنتَج والنص الدخلي بخسارة تدريب كبيرة؛ وقد أظهرت التجارب أن هذا يحسن الأداء بشكل فعال. أخيرًا، يتم تسهيل الخرائط بين الوسيلتين الحركية والنصية عن طريق تكييف نموذج العصبونات للمترجم الآلي (NMT) لسياقنا. يتيح هذا النمذجة الذاتية للتوزيع فوق رموز الحركة المتقطعة إنتاج سلاسل أوضاع غير محددة الطول من نص دخلي. نهجنا مرن ويمكن استخدامه لكلتا المهمتين: text2motion و motion2text. تُظهر التقييمات التجريبية على مجموعة بيانات معيارية أن أداء نهجنا يتفوق على مجموعة متنوعة من الأساليب المتقدمة في كلتا المهمتين. صفحة المشروع: https://ericguo5513.github.io/TM2T/


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp