HyperAIHyperAI

Command Palette

Search for a command to run...

Motion Anything: التوليد من أي إلى الحركة

Zeyu Zhang Yiran Wang Wei Mao Danning Li Rui Zhao Biao Wu Zirui Song Bohan Zhuang Ian Reid Richard Hartley

الملخص

تم دراسة توليد الحركة الشرطية على نطاق واسع في مجال رؤية الحاسوب، ومع ذلك تظل هناك تحديان جوهريان. أولاً، وعلى الرغم من أن الطرق القائمة على التوليد التلقائي المُقنّع قد تفوقت مؤخرًا على الطرق القائمة على التشتت (diffusion)، إلا أن النماذج القائمة على التغطية الحالية تفتقر إلى آلية لتحديد الأولوية للإطارات الديناميكية والأجزاء الجسدية بناءً على الشروط المقدمة. ثانيًا، غالبًا ما تفشل الطرق الحالية التي تتعامل مع أنواع متعددة من الشروط في دمج هذه الأنواع بشكل فعّال، مما يحد من التحكم والاتساق في الحركة المولّدة. لمعالجة هذه التحديات، نقترح إطار "Motion Anything"، وهو إطار لتوليد الحركة متعددة الوسائط يُقدّم نهجًا جديدًا يعتمد على الانتباه في نمذجة التغطية (Attention-based Mask Modeling)، مما يتيح تحكمًا دقيقًا فرعيًا في المساحة والزمن بالنسبة للإطارات الرئيسية والإجراءات. يُشفّر نموذجنا الشروط متعددة الوسائط بشكل تلقائي، بما في ذلك النص والموسيقى، مما يُحسّن التحكم. علاوةً على ذلك، نقدّم مجموعة بيانات جديدة تُسمى Text-Music-Dance (TMD)، وتشمل 2,153 زوجًا من النصوص والموسيقى والرقص، مما يجعل حجمها ضعف حجم AIST++، مُعَوّضًا بذلك فجوة حرجة في المجتمع. تُظهر التجارب الواسعة أن "Motion Anything" يتفوّق على أحدث الطرق في عدة معايير، مع تحقيق تحسّن بنسبة 15٪ في معيار FID على HumanML3D، بالإضافة إلى تحسينات متسقة في أداء AIST++ وTMD. لمزيد من التفاصيل، يُرجى زيارة موقع المشروع: https://steve-zeyu-zhang.github.io/MotionAnything


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp