Make-An-Animation: إنشاء حركة ثلاثية الأبعاد للإنسان بشروط نصية على نطاق واسع

أثارت توليد الحركة البشرية الموجهة بالنص اهتمامًا كبيرًا بفضل تطبيقاتها المهمة التي تمتد من الرسوم المتحركة إلى الروبوتات. في الآونة الأخيرة، ساهمت تطبيقات نماذج التشتت (diffusion models) على توليد الحركات في تحسين جودة الحركات المولدة. ومع ذلك، تُعاني النماذج الحالية من قيود ناتجة عن اعتمادها على بيانات التقاط الحركة ذات الحجم المحدود نسبيًا، مما يؤدي إلى أداء ضعيف عند التعامل مع أوامر أكثر تنوعًا وواقعية (in-the-wild). في هذا البحث، نقدّم نموذج "Make-An-Animation"، وهو نموذج لتوليد حركة بشرية موجهة بالنص، يتعلم مواقف ونصوص أكثر تنوعًا من مجموعات بيانات صور-نصوص كبيرة الحجم، مما يُحدث تحسنًا كبيرًا في الأداء مقارنة بالأساليب السابقة. يتم تدريب "Make-An-Animation" على مرحلتين: أولاً، نُدرّب النموذج على مجموعة بيانات كبيرة ومُختارة من أزواج (نص، وضعية وهمية ثابتة) المستخلصة من مجموعات بيانات الصور-النصوص. ثانيًا، نُعدّل النموذج بدقة على بيانات التقاط الحركة، مع إضافة طبقات إضافية لتمثيل البُعد الزمني. على عكس النماذج التشتتية السابقة لتوليد الحركة، يستخدم "Make-An-Animation" بنية U-Net مشابهة للنماذج الحديثة لتوليد الفيديو من النص. أظهرت تقييمات البشر للواقعية الحركية ومدى التوافق مع النص المدخل أن نموذجنا يحقق أفضل أداء في مجال توليد الحركة من النص.