تعلم مقاطع الفيديو للتصوير ثلاثي الأبعاد من خلال التوسع ذاتي الإشراف على الصور الفردية

التصوير ثلاثي الأبعاد يحول الصورة الثابتة إلى فيديو به تأثيرات بصرية ثلاثية الأبعاد جذابة. النهج الحالي عادةً ما يقوم أولاً بتقدير العمق من زاوية واحدة، ثم يعيد تكوين الإطار المدخل إلى إطارات لاحقة ذات نقاط نظر مختلفة، وأخيراً يستخدم نموذج التكميل لإكمال المناطق المفقودة أو المخفية. يلعب نموذج التكميل دورًا حاسمًا في جودة التكوين، ولكنه يتم تدريبه عادةً على بيانات خارج المجال. لتخفيض الفجوة بين التدريب والاستدلال، نقترح نموذج انتشار ذاتي الرقابة جديد كوحدة للتكميل. بناءً على صورة مدخلة واحدة، نقوم تلقائيًا ببناء زوج تدريبي من الصورة المخفية والماسكة والصورة الحقيقية باستخدام التكوين العشوائي الدوري. تكون العينات التدريبية المحصلة متوافقة بشكل وثيق مع الحالات الاختبارية، دون الحاجة إلى تعليقات البيانات. للحصول على استغلال كامل للصور الماسكة، قمنا بتصميم كتلة تعزيز ماسكة (Masked Enhanced Block - MEB)، والتي يمكن دمجها بسهولة في UNet وتعزيز الشروط الدلالية. فيما يتعلق بالرسوم المتحركة في العالم الحقيقي، نقدم مهمة جديدة: الرسوم المتحركة الخارجية (out-animation)، التي تمتد في الزمان والمكان للأجسام المدخلة. أظهرت التجارب الواسعة على بيانات حقيقية أن طريقتنا تحقق نتائج تنافسية مع أفضل الطرق الحالية (SOTA).