إنترجين: توليد حركة متعددة البشرية تعتمد على التشتت في ظل تفاعلات معقدة

لقد شهدنا مؤخرًا تقدمًا كبيرًا في مجال التقدمات المتعلقة بالتوزيع (diffusion) من أجل إنشاء حركات بشرية واقعية. ومع ذلك، فإن هذه الأساليب تتجاهل إلى حد كبير التفاعلات متعددة الأشخاص. في هذا البحث، نقدم InterGen، وهي منهجية فعالة قائمة على التوزيع، تُدمج تفاعلات الإنسان مع الإنسان في عملية توزيع الحركة، مما يمكّن المستخدمين العاديين من تخصيص حركات تفاعل ثنائية عالية الجودة، باستخدام توجيه نصي فقط. نقدم أولًا مجموعة بيانات متعددة الوسائط تُسمى InterHuman، والتي تتضمن حوالي 107 مليون إطار لتفاعلات ثنائية متنوعة بين البشر، مع حركات عظمية دقيقة و23,337 وصفًا لغويًا طبيعيًا. من ناحية الخوارزمية، قمنا بتعديل نموذج توزيع الحركة بدقة لتتناسب مع بيئة التفاعل الثنائي. ولمعالجة تناظر هويات البشر أثناء التفاعل، نقترح نوعين من مُزيلات الضوضاء القائمة على المحولات التعاونية (cooperative transformer-based denoisers)، التي تشارك في توزيع الأوزان بشكل صريح، مع آلية انتباه متبادلة لربط العمليات التفسيرية بشكل أعمق. ثم، نقترح تمثيلًا جديدًا لبيانات الدخل الحركية في نموذجنا التفاعلي للتوزيع، والذي يُصوغ بشكل صريح العلاقات العالمية بين الشخصين في الإطار العالمي. كما نُدخل حدين تنظيميين جديدين لترميز العلاقات المكانية، مزودين بخطة تخفيف متناسبة أثناء تدريب نموذج التوزيع التفاعلي لدينا. وقد أثبتت التجارب الواسعة فعالية وقابلية التعميم لـ InterGen. وبشكل لافت، يمكنها إنتاج حركات ثنائية أكثر تنوعًا وتأثيرًا مقارنة بالطرق السابقة، كما تتيح تطبيقات متعددة في مجالات لاحقة متعلقة بالتفاعلات البشرية.