HyperAIHyperAI
منذ 9 أيام

الاندماج الزمني لمشاهد ديناميكية من خلال تقدير حركة الكائنات ثلاثية الأبعاد باستخدام صور متعددة مستويات

Nagabhushan Somraj, Pranali Sancheti, Rajiv Soundararajan
الاندماج الزمني لمشاهد ديناميكية من خلال تقدير حركة الكائنات ثلاثية الأبعاد باستخدام صور متعددة مستويات
الملخص

يمكن التغلب على التحدي المتمثل في عرض مقاطع الفيديو ذات معدل الإطارات العالي على الأجهزة ذات القدرة الحسابية المنخفضة من خلال التنبؤ الدوري بالإطارات المستقبلية لتحسين تجربة المستخدم في تطبيقات الواقع الافتراضي. ويُدرس هذا الأمر من خلال مشكلة التوليد الزمني للوجه (Temporal View Synthesis - TVS)، حيث يكون الهدف هو التنبؤ بالإطارات التالية لفيديو معطى الإطارات السابقة ووضعيات الرأس في الإطارات السابقة والمستقبلية. في هذه الدراسة، نتناول حالة TVS للمشاهد الديناميكية التي تتحرك فيها كل من المستخدم والأجسام. نصمم إطارًا يُفصّل الحركة إلى حركة المستخدم وحركة الأجسام، بهدف الاستفادة الفعّالة من حركة المستخدم المتاحة أثناء التنبؤ بالإطارات التالية. نتنبأ بحركة الأجسام من خلال عزل وتقدير حركة الأجسام ثلاثية الأبعاد في الإطارات السابقة، ثم استخلاصها استخلاصًا خارجيًا. نستخدم صورًا متعددة المستويات (Multi-Plane Images - MPI) كتمثيل ثلاثي الأبعاد للمشاهد، ونُمثل حركة الأجسام كانزلاق ثلاثي الأبعاد بين النقاط المقابلة في تمثيل MPI. ولمعالجة الندرة في صور MPI أثناء تقدير الحركة، نُدمج طبقات التحويل الجزئي (Partial Convolutions) وطبقات الارتباط المُقنَّع (Masked Correlation Layers) لتقدير النقاط المقابلة. ثم يتم دمج الحركة المتنبأ بها للأجسام مع حركة المستخدم أو الكاميرا المعطاة لإنشاء الإطار التالي. وباستخدام وحدة تعبئة المناطق المكشوفة (Disocclusion Infilling Module)، نُولّد المناطق التي تُكشف نتيجة حركة الكاميرا والأجسام. ونُطوّر مجموعة بيانات اصطناعية جديدة لمشكلة TVS في المشاهد الديناميكية، تتكون من 800 مقطع فيديو بدقة Full HD. ونُظهر من خلال التجارب على مجموعتنا الخاصة وعلى مجموعة بيانات MPI Sintel أن نموذجنا يتفوق على جميع الطرق المتنافسة المُدرجة في الأدبيات.

الاندماج الزمني لمشاهد ديناميكية من خلال تقدير حركة الكائنات ثلاثية الأبعاد باستخدام صور متعددة مستويات | أحدث الأوراق البحثية | HyperAI