DLow: تنويع التدفقات اللاتنتية لتنبؤ بحركات الإنسان المتنوعة

تُستخدم النماذج التوليدية العميقة غالبًا في توقع حركة الإنسان لأنها قادرة على نمذجة توزيعات البيانات متعددة الأنماط وتمثيل السلوك البشري المتنوع. وعلى الرغم من الجهد الكبير المبذول في تصميم وتعلم النماذج التوليدية العميقة، فإن مسألة إنتاج عينات متنوعة بكفاءة من نموذج توليد عميق بعد اكتمال تدريبه ما زالت مسألة غير مكتملة الاستكشاف. لاستخلاص عينات من نموذج توليد مُدرّب مسبقًا، تعتمد معظم الطرق الحالية لتوقع حركة الإنسان التوليدية على سحب مجموعة من الرموز الكامنة الطبيعية المستقلة، ثم تحويلها إلى عينات حركية. من الواضح أن هذه الاستراتيجية العشوائية للسحب لا تضمن إنتاج عينات متنوعة لسببين: (1) لا يمكن للسحب المستقل إجبار العينات على أن تكون متنوعة؛ (2) يعتمد السحب فقط على الاحتمال، مما قد يؤدي إلى إنتاج عينات تتوافق فقط مع الأنماط الرئيسية لتوزيع البيانات. ولحل هذه المشكلات، نقترح طريقة عينة جديدة تُسمى "تدفقات الكود الكامن المتنوعة" (DLow) لإنتاج مجموعة متنوعة من العينات من نموذج توليد عميق مُدرّب مسبقًا. على عكس السحب العشوائي (المستقل)، تُستخدم طريقة DLow لسحب متغير عشوائي واحد، ثم يتم تمريره عبر مجموعة من الدوال القابلة للتعلم لتحويله إلى مجموعة من الرموز الكامنة المرتبطة. ثم يتم فك تشفير هذه الرموز الكامنة المرتبطة لإنتاج مجموعة من العينات المرتبطة. أثناء التدريب، تستخدم DLow ما يُعرف بـ"التحليل السابق المُعزز للتنوع" كهدف لتحسين التحويلات الكامنة بهدف تحسين تنوع العينات. ويتميز تصميم هذا التحليل السابق بقدرته الكبيرة على التخصيص، مما يسمح بإنشاء حركات متنوعة تمتلك سمات مشتركة (مثل حركة الساقين المتشابهة ولكن حركة الجزء العلوي من الجسم متنوعة). تُظهر التجارب التي أجريناها أن DLow تتفوق على أفضل الطرق القائمة في مجالها من حيث تنوع العينات والدقة. تم إصدار الشفرة المصدرية على صفحة المشروع: https://www.ye-yuan.com/dlow.