HyperAIHyperAI
منذ 11 أيام

DiverseMotion: نحو توليد حركات بشرية متنوعة من خلال التمايز المنفصل

Yunhong Lou, Linchao Zhu, Yaxiong Wang, Xiaohan Wang, Yi Yang
DiverseMotion: نحو توليد حركات بشرية متنوعة من خلال التمايز المنفصل
الملخص

نقدّم DiverseMotion، منهجية جديدة لتصنيع حركات بشرية عالية الجودة المُشَرَّطة بوصف نصي، مع الحفاظ على تنوع الحركات. وعلى الرغم من التقدم الكبير الأخير في مجال توليد الحركات البشرية القائمة على النصوص، فإن الطرق الحالية تميل إلى التركيز على مطابقة الحركات التدريبية على حساب تنوع الإجراءات. وبالتالي، يظل تحقيق توازن بين جودة الحركة وتنوعها تحديًا غير محلول. ويُعقّد هذا المشكل عاملان رئيسيان: 1) نقص التنوّع في أزواج الحركة-الوصف في المعايير الحالية، و2) الفهم الشكلي الأحادي والمحبّس للنص المُدخل، الذي يركّز بشكل أساسي على المُضارع (الفعل) مع إهمال الفروق الدقيقة التي تُشير إليها الكلمات الأخرى. وللرد على المشكلة الأولى، قمنا ببناء مجموعة بيانات واسعة النطاق تُسمّى Wild Motion-Caption (WMC)، لتوسيع الحدود المحدودة للإجراءات في المجموعات المُعلّمة جيدًا الحالية، مما يمكّن من تعلّم حركات متنوعة عبر مجموعة أوسع من الإجراءات. ولتحقيق ذلك، تم تدريب نموذج حركة BLIP على نموذج رؤية-لغة مُدرّب مسبقًا، ثم تم توليد وصفات حركية متنوعة تلقائيًا للسلاسل الحركية المجمعة. ونتيجة لذلك، تم بناء مجموعة بيانات تضم 8,888 حركة مترابطة مع 141,000 نص. ولضمان فهم شامل للتعليمات النصية، اقترحنا وحدة تجميع معاني هرمية (HSA) لاستخلاص المعاني الدقيقة. وأخيرًا، تم دمج هذين التصميمين في إطار فعّال يُسمّى تمايز الحركة المتقطعة (MDD)، بهدف تحقيق توازن فعّال بين جودة الحركة وتنوعها. أظهرت التجارب الواسعة على مجموعتي بيانات HumanML3D وKIT-ML أن DiverseMotion تحقق أفضل جودة حركة حاليًا، وتنافس في تنوع الحركة. سيتم إصدار مجموعة البيانات، والكود، والنموذج المُدرّب مسبقًا لتمكين إعادة إنتاج جميع نتائجنا.

DiverseMotion: نحو توليد حركات بشرية متنوعة من خلال التمايز المنفصل | أحدث الأوراق البحثية | HyperAI