Motion Anything: التوليد من أي إلى الحركة

تم دراسة توليد الحركة الشرطية على نطاق واسع في مجال رؤية الحاسوب، ومع ذلك تظل هناك تحديان جوهريان. أولاً، وعلى الرغم من أن الطرق القائمة على التوليد التلقائي المُقنّع قد تفوقت مؤخرًا على الطرق القائمة على التشتت (diffusion)، إلا أن النماذج القائمة على التغطية الحالية تفتقر إلى آلية لتحديد الأولوية للإطارات الديناميكية والأجزاء الجسدية بناءً على الشروط المقدمة. ثانيًا، غالبًا ما تفشل الطرق الحالية التي تتعامل مع أنواع متعددة من الشروط في دمج هذه الأنواع بشكل فعّال، مما يحد من التحكم والاتساق في الحركة المولّدة. لمعالجة هذه التحديات، نقترح إطار "Motion Anything"، وهو إطار لتوليد الحركة متعددة الوسائط يُقدّم نهجًا جديدًا يعتمد على الانتباه في نمذجة التغطية (Attention-based Mask Modeling)، مما يتيح تحكمًا دقيقًا فرعيًا في المساحة والزمن بالنسبة للإطارات الرئيسية والإجراءات. يُشفّر نموذجنا الشروط متعددة الوسائط بشكل تلقائي، بما في ذلك النص والموسيقى، مما يُحسّن التحكم. علاوةً على ذلك، نقدّم مجموعة بيانات جديدة تُسمى Text-Music-Dance (TMD)، وتشمل 2,153 زوجًا من النصوص والموسيقى والرقص، مما يجعل حجمها ضعف حجم AIST++، مُعَوّضًا بذلك فجوة حرجة في المجتمع. تُظهر التجارب الواسعة أن "Motion Anything" يتفوّق على أحدث الطرق في عدة معايير، مع تحقيق تحسّن بنسبة 15٪ في معيار FID على HumanML3D، بالإضافة إلى تحسينات متسقة في أداء AIST++ وTMD. لمزيد من التفاصيل، يُرجى زيارة موقع المشروع: https://steve-zeyu-zhang.github.io/MotionAnything