HyperAIHyperAI
منذ 2 أشهر

MotionGPT: الحركة البشرية كلغة أجنبية

Jiang, Biao ; Chen, Xin ; Liu, Wen ; Yu, Jingyi ; Yu, Gang ; Chen, Tao
MotionGPT: الحركة البشرية كلغة أجنبية
الملخص

رغم التقدم المستمر في نماذج اللغة الكبيرة المدربة مسبقًا، لا تزال استكشافات بناء نموذج موحد للغة وأنواع أخرى من البيانات متعددة الوسائط، مثل الحركة، تمثل تحديًا لم يتم التعامل معه بشكل كافٍ حتى الآن. ومع ذلك، فإن حركة الإنسان تظهر ربطًا دلاليًا مشابهًا للغة البشرية، وغالبًا ما يتم اعتبارها شكلًا من أشكال لغة الجسد. من خلال دمج بيانات اللغة مع نماذج الحركة على نطاق واسع، يصبح من الممكن إجراء التدريب المسبق للحركة-اللغة الذي يمكن أن يعزز أداء المهام المتعلقة بالحركة. بفضل هذا الفهم، نقترح MotionGPT، وهو نموذج حركة-لغة موحد ومتنوع وسهل الاستخدام لمعالجة العديد من المهام ذات الصلة بالحركة. بشكل خاص، نستخدم التكميم المتجهي المتقطع للحركة البشرية ونقل الحركة ثلاثية الأبعاد إلى رموز حركية (motion tokens)، مشابهة لعملية إنشاء رموز الكلمات (word tokens). اعتمادًا على هذا "المفردات الحركية"، نقوم بنمذجة اللغة لكل من الحركة والنص بطريقة موحدة، معاملين الحركة البشرية كلغة خاصة. علاوة على ذلك، مستوحين من تعلم الإرشادات (prompt learning)، نقوم بتدريب MotionGPT بشكل مسبق باستخدام مزيج من بيانات الحركة-اللغة وضبطه الدقيق على مهام السؤال والإجابة القائمة على الإرشادات. تُظهر التجارب الواسعة أن MotionGPT يحقق أفضل الأداءات في العديد من المهام الحركية بما في ذلك إنشاء الحركة بواسطة النص، وإضافة العناوين للحركة (motion captioning)، وتوقع الحركة، وإنتاج حركات الوصل (motion in-between).