HyperAIHyperAI

Command Palette

Search for a command to run...

Make-An-Animation: إنشاء حركة ثلاثية الأبعاد للإنسان بشروط نصية على نطاق واسع

Samaneh Azadi Akbar Shah Thomas Hayes Devi Parikh Sonal Gupta

الملخص

أثارت توليد الحركة البشرية الموجهة بالنص اهتمامًا كبيرًا بفضل تطبيقاتها المهمة التي تمتد من الرسوم المتحركة إلى الروبوتات. في الآونة الأخيرة، ساهمت تطبيقات نماذج التشتت (diffusion models) على توليد الحركات في تحسين جودة الحركات المولدة. ومع ذلك، تُعاني النماذج الحالية من قيود ناتجة عن اعتمادها على بيانات التقاط الحركة ذات الحجم المحدود نسبيًا، مما يؤدي إلى أداء ضعيف عند التعامل مع أوامر أكثر تنوعًا وواقعية (in-the-wild). في هذا البحث، نقدّم نموذج "Make-An-Animation"، وهو نموذج لتوليد حركة بشرية موجهة بالنص، يتعلم مواقف ونصوص أكثر تنوعًا من مجموعات بيانات صور-نصوص كبيرة الحجم، مما يُحدث تحسنًا كبيرًا في الأداء مقارنة بالأساليب السابقة. يتم تدريب "Make-An-Animation" على مرحلتين: أولاً، نُدرّب النموذج على مجموعة بيانات كبيرة ومُختارة من أزواج (نص، وضعية وهمية ثابتة) المستخلصة من مجموعات بيانات الصور-النصوص. ثانيًا، نُعدّل النموذج بدقة على بيانات التقاط الحركة، مع إضافة طبقات إضافية لتمثيل البُعد الزمني. على عكس النماذج التشتتية السابقة لتوليد الحركة، يستخدم "Make-An-Animation" بنية U-Net مشابهة للنماذج الحديثة لتوليد الفيديو من النص. أظهرت تقييمات البشر للواقعية الحركية ومدى التوافق مع النص المدخل أن نموذجنا يحقق أفضل أداء في مجال توليد الحركة من النص.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp