الصورة والهندسة من وجهة نظر جديدة محاذاة عبر تثبيت الانتباه العابر للنماذج

نقدم إطارًا مبنيًا على الانتشار (diffusion) يقوم بإنشاء صور وهندسة من وجهات نظر جديدة ومتناسقة عبر منهجية التواء وإكمال الصور (warping-and-inpainting). على عكس الطرق السابقة التي تتطلب صورًا مكثفة بمواقع معينة أو نماذج توليدية مضمنة بالموقع محدودة لوجهات النظر داخل المجال، يعتمد أسلوبنا على متنبئات الهندسة الجاهزة للبيع لتوقع الهندسات الجزئية المعروضة من الصور المرجعية، ويصيغ إنشاء وجهات النظر الجديدة كمهمة إكمال للصور والهندسة معًا. لضمان التناسق الدقيق بين الصور المنشأة والهندسة، نقترح تقنية تقطير الانتباه متعدد الوسائط (cross-modal attention distillation)، حيث يتم حقن خرائط الانتباه من فرع الانتشار للصورة في فرع الانتشار المتوازي للهندسة خلال التدريب والاستدلال. هذا النهج متعدد المهام يحقق آثارًا تعاونية، مما يساعد في إنشاء صور قوية هندسيًا وتوقع هندسة واضحة. كما نقدم شرط الشبكة العنكبوتية القائم على القرب (proximity-based mesh conditioning) لدمج مؤشرات العمق والمسارح، مما يؤدي إلى التداخل بين السحابة النقطية وتصفية الهندسة المتنبأ بها بشكل غير صحيح من التأثير على عملية الإنشاء. عمليًا، يحقق أسلوبنا إنشاء وجهات النظر الاستنتاجية عالية الدقة لكلٍّ من الصور والهندسة عبر مجموعة متنوعة من المشاهد غير المألوفة، ويقدم جودة إعادة بناء تنافسية تحت ظروف التداخل، وينتج سحب نقاط ملونة ومتناسقة هندسيًا لإكمال ثلاثي الأبعاد شامل. صفحة المشروع متاحة على الرابط:https://cvlab-kaist.github.io/MoAI.