إكمال الحركة في عملية واحدة باستخدام المحول

إكمال الحركة يُعد مشكلة صعبة وتم التطرق إليها منذ فترة طويلة، وله أهمية كبيرة في تطبيقات الأفلام والألعاب. بالنسبة لسيناريوهات إكمال الحركة المختلفة (الإكمال بين الإطارات، وملء الفجوات، والدمج)، غالبًا ما تتعامل الطرق السابقة مع مشكلات الإكمال من خلال تصميمات متخصصة لكل حالة على حدة. في هذا العمل، نقترح طريقة بسيطة ولكن فعالة لحل مشكلات إكمال الحركة المتعددة ضمن إطار موحد، ونحقق دقة جديدة قياسية في ظل مختلف إعدادات التقييم. مستوحاة من النجاح الكبير الذي حققته النماذج القائمة على الانتباه مؤخرًا، ننظر إلى إكمال الحركة كمشكلة تنبؤ تسلسلي-سلسلي (sequence-to-sequence). تتكون طريقتنا من وحدتين: وحدة ترميز معيارية من نوع Transformer تستخدم الانتباه الذاتي لتعلم الاعتماديات على المدى الطويل في الحركات المدخلة، ووحدة تضمين مزج قابلة للتدريب تُمثل المعلومات الزمنية وتميّز الإطارات الأساسية. تتيح طريقتنا العمل بطريقة غير تكرارية (non-autoregressive) وتتنبأ بعدة إطارات مفقودة في وقت واحد خلال عملية تمرير واحدة فقط، بشكل فوري. وأخيرًا، نُظهر فعالية طريقتنا في تطبيقات الموسيقى والرقص.