DiffDreamer: نحو استكمال المشهد غير المشرف من وجهة نظر واحدة باستخدام نماذج التوسع الشرطية

الاستدلال على المشهد -- وهو مفهوم إنشاء مناظر جديدة عن طريق التحليق في صورة معينة -- هو مهمة واعدة ومعقدة. يجب حل مشكلة مشتركة تشمل الإكمال الداخلي والتحسين ثلاثي الأبعاد لكل إطار متوقع، وهي مشكلة غير محددة بدقة وتتضمن درجة عالية من الغموض. بالإضافة إلى ذلك، فإن الحصول على بيانات التدريب للمشاهد طويلة المدى أمر صعب ولا تحتوي عادةً على عدد كافٍ من المناظر لاستنتاج وضعيات الكاميرا بدقة. نقدم DiffDreamer، وهو إطار عمل غير مشرف قادر على توليد مناظر جديدة تمثل مسارًا طويلًا للكاميرا أثناء التدريب فقط على صور الطبيعة التي تم جمعها من الإنترنت. باستخدام الطبيعة العشوائية للخطوات الموجهة لإزالة الضوضاء، نقوم بتدريب نماذج الانتشار لتكرار صور RGBD المقترنة ولكننا نربط خطوات إزالة الضوضاء بعدة أطر سابقة ومستقبلية للاستدلال. نوضح أن نماذج الانتشار المشروطة بالصورة يمكن أن تقوم بفعالية باستدلال المشاهد طويلة المدى مع الحفاظ على التجانس بشكل كبير أفضل مما سبقه من طرق تعتمد على الشبكات العصبية التوليدية (GAN). يعد DiffDreamer حلاً قويًا وكفicientًا للاستدلال على المشهد، حيث ينتج نتائج مثيرة للإعجاب رغم وجود رقابة محدودة. صفحة المشروع: https://primecai.github.io/diffdreamer.