TEMOS: إنشاء حركات بشرية متنوعة من وصفات نصية

نعالج مشكلة إنشاء حركات ثلاثية الأبعاد متنوعة للإنسان من وصف نصي. يتطلب هذا المهمة الصعبة نمذجة مترافقة لكلا الوسائط: فهم واستخراج المعلومات ذات الصلة بالإنسان من النص، ثم إنشاء تسلسلات واقعية وقابلة للتصديق لوضعيات الجسم. على عكس معظم الدراسات السابقة التي ركزت على إنشاء حركة واحدة وحيدة وثابتة من وصف نصي، نصمم نهجًا احتماليًا يمكنه إنتاج عدة حركات إنسانية متنوعة. نقترح نموذج TEMOS، وهو نموذج توليد مُشَرَّط بالنص، يعتمد على تدريب مُحَوِّل تلقائي احتمالي (VAE) باستخدام بيانات حركة الجسم، مع دمج مشفر نصي يُنتج معاملات توزيع متوافقة مع الفضاء الخفي لـ VAE. نُظهر أن إطار عمل TEMOS يمكنه إنشاء أنواع من الرسوم المتحركة القائمة على الهيكل العظمي كما في الدراسات السابقة، بالإضافة إلى إنشاء حركات جسدية أكثر تعبيرًا باستخدام نموذج SMPL. قمنا بتقييم منهجنا على معيار KIT Motion-Language، ورغم بساطته النسبية، نُظهر تحسينات كبيرة مقارنة بأحدث التقنيات. يتوفر الكود والنموذج على صفحتنا الإلكترونية.