HyperAIHyperAI
منذ 11 أيام

FineMoGen: توليد وتحرير الحركة الفضائية الزمنية الدقيقة

Mingyuan Zhang, Huirong Li, Zhongang Cai, Jiawei Ren, Lei Yang, Ziwei Liu
FineMoGen: توليد وتحرير الحركة الفضائية الزمنية الدقيقة
الملخص

أحرزت توليد الحركة الموجهة بالنص تقدماً كبيراً مع ظهور نماذج التشتت (diffusion models). ومع ذلك، لا يزال من الصعب على الطرق الحالية إنتاج تسلسلات حركة معقدة تتوافق مع وصف دقيق، وتُظهر إجراءات مكانيّة زمنيّة مفصلة ودقيقة. ويتسبب هذا النقص في التحكم الدقيق في تقييد استخدام توليد الحركة لجمهور أوسع. ولحل هذه التحديات، نقدّم "FineMoGen"، وهي إطار عمل مبني على نموذج التشتت لتوليد وتحرير الحركة، قادر على توليد حركات دقيقة، مع توليف مكاني زمني وفقاً لتعليمات المستخدم. وبشكل خاص، يعتمد FineMoGen على نموذج تشتت مع معمارية تحويلية جديدة تُسمّى "الانتباه المختلط المكاني الزمني" (SAMI). وتُحسّن SAMI توليد نموذج الانتباه العالمي من وجهتين: 1) نمذجة القيود المكانيّة الزمنيّة بشكل صريح؛ و2) استخدام خوارزمية "مزيج الخبراء النادرة التفعيل" (sparsely-activated mixture-of-experts) لاستخراج ميزات دقيقة بشكل تكيفي. ولتمكين دراسة واسعة النطاق لهذه المهمة الجديدة لتوليد الحركة الدقيقة، نقدّم مجموعة بيانات HuMMan-MoGen، التي تتضمن 2,968 فيديو و102,336 وصفاً مكانيّاً زمنيّاً دقيقاً. وتوحي النتائج التجريبية الواسعة بأن FineMoGen يتفوّق على الطرق الرائدة في الجودة الحركية. وبشكل لافت، يتيح FineMoGen أيضاً قدرة على تحرير الحركة بدون تدريب (zero-shot) بمساعدة النماذج اللغوية الكبيرة الحديثة (LLM)، التي تُمكّن من تعديل تسلسلات الحركة بدقة وفقاً لتعليمات دقيقة. صفحة المشروع: https://mingyuan-zhang.github.io/projects/FineMoGen.html

FineMoGen: توليد وتحرير الحركة الفضائية الزمنية الدقيقة | أحدث الأوراق البحثية | HyperAI