HyperAIHyperAI
منذ 3 أشهر

الحركة التبادلية: توليد حركة الإنسان ثلاثية الأبعاد الموجهة بالنص باستخدام نموذج التبادل

Zhiyuan Ren, Zhihong Pan, Xin Zhou, Le Kang
الحركة التبادلية: توليد حركة الإنسان ثلاثية الأبعاد الموجهة بالنص باستخدام نموذج التبادل
الملخص

نُقدِّم طريقة بسيطة وحديثة لاستخلاص الحركة ثلاثية الأبعاد للإنسان من جمل لغوية معقدة في الطبيعة، تصف سرعة مختلفة، واتجاهات، وتركيبات متنوعة لأنواع متعددة من الحركات. على عكس الطرق الحالية التي تعتمد على الهياكل التوليدية الكلاسيكية، نستخدم نموذج التفتيت الاحتمالي المُزيل للضوضاء (Denoising Diffusion Probabilistic Model) في هذه المهمة، حيث يتم توليد نتائج حركية متنوعة بقيادة نصية. يقوم نموذج التفتيت بتحويل الضوضاء البيضاء إلى حركة ثلاثية الأبعاد منظمة من خلال عملية ماركوف تتضمن سلسلة من خطوات إزالة الضوضاء، ويتم تدريبه بكفاءة من خلال تحسين حد أدنى تبادلي (variational lower bound). ولتحقيق هدف توليد الصور المعتمدة على النص، نستخدم استراتيجية التوجيه بدون تصنيف (classifier-free guidance) لدمج تضمينات النص داخل النموذج أثناء التدريب. تُظهر تجاربنا أن النموذج يحقق نتائج تنافسية على مجموعة اختبار HumanML3D من حيث الجوانب الكمية، ويُنتج أمثلة أكثر طبيعية بصريًا وتنوعًا. كما نُظهر من خلال التجارب أن النموذج قادر على توليد حركات بحالة الصفر (zero-shot) للنصوص غير المرئية مسبقًا.