HyperAIHyperAI

Command Palette

Search for a command to run...

كن كما تشاء: التحكم الدقيق في نموذج الت(diffusion) الحركي باستخدام رسوم بيانية ثنائية المستوى معنوية

الملخص

تُستخدم معظم الطرق المُعتمدة على النصوص في توليد الحركات البشرية نماذج تسلسلية، مثل نموذج الترانسفورمر (Transformer)، لاستخراج تمثيلات نصية على مستوى الجملة تلقائيًا وضمنيًا لغرض توليد الحركات البشرية. ومع ذلك، قد تُبالغ هذه التمثيلات النصية المختصرة في التركيز على أسماء الحركات على حساب خصائص مهمة أخرى، كما أنها تفتقر إلى التفاصيل الدقيقة التي تُوجِّه توليد الحركات المُختلفة بشكل دقيق. في هذا البحث، نقترح استخدام الرسوم البيانية الهرمية للSemantic لتمكين التحكم الدقيق في توليد الحركات. وبشكل خاص، نُفكك وصف الحركة إلى رسوم بيانية هرمية تضم ثلاث مستويات: الحركات العامة، والإجراءات، والتفاصيل الدقيقة. وتساعد هذه الهياكل من العُموم إلى التفاصيل في فهم شامل لوصف الحركة، وتمكين التحكم الدقيق في توليد الحركات. ووفقًا لذلك، وللاستفادة من البنية التسلسلية من العُموم إلى التفاصيل في الرسوم البيانية الهرمية، نُفكك عملية التوليد من النص إلى الحركة باستخدام نموذج التشتت (Diffusion) إلى ثلاث مستويات معنوية، تتوافق مع استخلاص الحركة العامة، والإجراءات المحلية، والتفاصيل الخاصة بالإجراءات. وقد أثبتت التجارب الواسعة على مجموعتي بيانات معيارين للحركات البشرية، وهما HumanML3D وKIT، بأداء متفوق، فعالية طريقة البحث المقترحة. وبشكل أكثر تشجيعًا، يمكن من خلال تعديل أوزان الحواف في الرسوم البيانية الهرمية تحسين توليد الحركة بشكل مستمر، مما قد يُحدث تأثيرًا بعيد المدى على المجتمع العلمي. يُمكن الوصول إلى الكود والأوزان المُدرّبة مسبقًا من خلال الرابط التالي: https://github.com/jpthu17/GraphMotion.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp