كن كما تشاء: التحكم الدقيق في نموذج الت(diffusion) الحركي باستخدام رسوم بيانية ثنائية المستوى معنوية

تُستخدم معظم الطرق المُعتمدة على النصوص في توليد الحركات البشرية نماذج تسلسلية، مثل نموذج الترانسفورمر (Transformer)، لاستخراج تمثيلات نصية على مستوى الجملة تلقائيًا وضمنيًا لغرض توليد الحركات البشرية. ومع ذلك، قد تُبالغ هذه التمثيلات النصية المختصرة في التركيز على أسماء الحركات على حساب خصائص مهمة أخرى، كما أنها تفتقر إلى التفاصيل الدقيقة التي تُوجِّه توليد الحركات المُختلفة بشكل دقيق. في هذا البحث، نقترح استخدام الرسوم البيانية الهرمية للSemantic لتمكين التحكم الدقيق في توليد الحركات. وبشكل خاص، نُفكك وصف الحركة إلى رسوم بيانية هرمية تضم ثلاث مستويات: الحركات العامة، والإجراءات، والتفاصيل الدقيقة. وتساعد هذه الهياكل من العُموم إلى التفاصيل في فهم شامل لوصف الحركة، وتمكين التحكم الدقيق في توليد الحركات. ووفقًا لذلك، وللاستفادة من البنية التسلسلية من العُموم إلى التفاصيل في الرسوم البيانية الهرمية، نُفكك عملية التوليد من النص إلى الحركة باستخدام نموذج التشتت (Diffusion) إلى ثلاث مستويات معنوية، تتوافق مع استخلاص الحركة العامة، والإجراءات المحلية، والتفاصيل الخاصة بالإجراءات. وقد أثبتت التجارب الواسعة على مجموعتي بيانات معيارين للحركات البشرية، وهما HumanML3D وKIT، بأداء متفوق، فعالية طريقة البحث المقترحة. وبشكل أكثر تشجيعًا، يمكن من خلال تعديل أوزان الحواف في الرسوم البيانية الهرمية تحسين توليد الحركة بشكل مستمر، مما قد يُحدث تأثيرًا بعيد المدى على المجتمع العلمي. يُمكن الوصول إلى الكود والأوزان المُدرّبة مسبقًا من خلال الرابط التالي: https://github.com/jpthu17/GraphMotion.