PGformer: نموذج التحويل المُعَدِّل للألعاب المُرَكَّب بالوسيط لتنبؤ الحركة المتطرفة التفاعلية بين عدة أشخاص

تنبؤ حركة الأشخاص المتعددين هو مهمة صعبة، خاصة في السيناريوهات الحقيقية التي تتضمن تفاعلات عالية بين الأشخاص. قد ركزت معظم الدراسات السابقة على دراسة حالات التفاعلات الضعيفة (مثل المشي معًا)، حيث يمكن تحقيق أداء جيد عادةً من خلال تنبؤ وضع كل شخص بشكل منفصل. يركز هذا البحث على تنبؤ الحركة التعاونية للأشخاص المتعددين الذين يقومون بحركات متطرفة، ويحاول استكشاف العلاقات بين مسارات وضع الأشخاص ذوي التفاعلات العالية. وبشكل خاص، تم اقتراح وحدة انتباه استعلامية متقاطعة (Cross-Query Attention - XQA) جديدة لتعلم الارتباطات المتبادلة بين سلسلتي وضع الشخص المخصصتين لهذه الحالة. بالإضافة إلى ذلك، تم تقديم وحدة وكيل إضافية لربط الأشخاص المعنيين، والتي تعمل بالتعاون مع الوحدة XQA المقترحة ours وتحكم بشكل دقيق في تدفقات المعلومات الفضائية المتبادلة. تم بعد ذلك دمج هذه التصاميم في هندسة قائمة على Transformer، والنموذج الناتج يُطلق عليه PGformer (Proxy-bridged Game Transformer) للتنبؤ بالحركة التفاعلية للأشخاص المتعددين. وقد تم تقييم فعاليته على مجموعة بيانات ExPI الصعبة، التي تتضمن أفعالًا ذات تفاعلات عالية. حقق نموذجنا PGformer تفوقًا ثابتًا على أفضل الأساليب الموجودة في كلا التنبؤات قصيرة ومتوسطة المدى بفارق كبير. بالإضافة إلى ذلك، يمكن أن يكون نهجنا متوافقًا أيضًا مع مجموعات البيانات CMU-Mocap وMuPoTS-3D التي تتضمن تفاعلات ضعيفة ويمكن توسيعه ليشمل حالات أكثر من شخصين مع نتائج مشجعة.