من الرؤية المتعددة إلى الرؤية الجديدة: توليد رؤى جديدة باستخدام الثقة المستفادة ذاتيًا

نعالج مهمة توليد صور جديدة من وجهات نظر متعددة، حيث نهدف إلى توليد صورة مستهدفة بوضعية كاميرا عشوائية من صور مصدرية معطاة. نقترح إطارًا قابلاً للتدريب من الطرف إلى الطرف يتعلم استغلال وجهات نظر متعددة لتوليد وجهة نظر جديدة دون أي إشراف ثلاثي الأبعاد. بشكل خاص، يتكون نموذجنا من وحدة تنبؤ بالتدفق ووحدة توليد البكسل، اللتان تُستخدمان مباشرةً في استغلال المعلومات المتوفرة في الصور المصدرية، بالإضافة إلى تخيّل البكسلات المفقودة استنادًا إلى مُعطيات إحصائية. ولدمج التنبؤات الناتجة عن الوحدتين عند توفر صور مصدرية متعددة، نقدّم آلية تجميع مبنية على تعلم ذاتي تعتمد على الثقة. وقد قمنا بتقييم نموذجنا على صور تم عرضها من نماذج كائنات ثلاثية الأبعاد، وكذلك على مشاهد حقيقية ومحسّنة. ونُظهر أن نموذجنا قادر على تحقيق نتائج من الطراز الرائد، بالإضافة إلى تحسين تنبؤاته بشكل تدريجي عند توفر عدد أكبر من الصور المصدرية.