الاندماج الزمني لمشاهد ديناميكية من خلال تقدير حركة الكائنات ثلاثية الأبعاد باستخدام صور متعددة مستويات

يمكن التغلب على التحدي المتمثل في عرض مقاطع الفيديو ذات معدل الإطارات العالي على الأجهزة ذات القدرة الحسابية المنخفضة من خلال التنبؤ الدوري بالإطارات المستقبلية لتحسين تجربة المستخدم في تطبيقات الواقع الافتراضي. ويُدرس هذا الأمر من خلال مشكلة التوليد الزمني للوجه (Temporal View Synthesis - TVS)، حيث يكون الهدف هو التنبؤ بالإطارات التالية لفيديو معطى الإطارات السابقة ووضعيات الرأس في الإطارات السابقة والمستقبلية. في هذه الدراسة، نتناول حالة TVS للمشاهد الديناميكية التي تتحرك فيها كل من المستخدم والأجسام. نصمم إطارًا يُفصّل الحركة إلى حركة المستخدم وحركة الأجسام، بهدف الاستفادة الفعّالة من حركة المستخدم المتاحة أثناء التنبؤ بالإطارات التالية. نتنبأ بحركة الأجسام من خلال عزل وتقدير حركة الأجسام ثلاثية الأبعاد في الإطارات السابقة، ثم استخلاصها استخلاصًا خارجيًا. نستخدم صورًا متعددة المستويات (Multi-Plane Images - MPI) كتمثيل ثلاثي الأبعاد للمشاهد، ونُمثل حركة الأجسام كانزلاق ثلاثي الأبعاد بين النقاط المقابلة في تمثيل MPI. ولمعالجة الندرة في صور MPI أثناء تقدير الحركة، نُدمج طبقات التحويل الجزئي (Partial Convolutions) وطبقات الارتباط المُقنَّع (Masked Correlation Layers) لتقدير النقاط المقابلة. ثم يتم دمج الحركة المتنبأ بها للأجسام مع حركة المستخدم أو الكاميرا المعطاة لإنشاء الإطار التالي. وباستخدام وحدة تعبئة المناطق المكشوفة (Disocclusion Infilling Module)، نُولّد المناطق التي تُكشف نتيجة حركة الكاميرا والأجسام. ونُطوّر مجموعة بيانات اصطناعية جديدة لمشكلة TVS في المشاهد الديناميكية، تتكون من 800 مقطع فيديو بدقة Full HD. ونُظهر من خلال التجارب على مجموعتنا الخاصة وعلى مجموعة بيانات MPI Sintel أن نموذجنا يتفوق على جميع الطرق المتنافسة المُدرجة في الأدبيات.