GAN متعدد القنوات مع انتقاء الانتباه التتابعي بالإرشاد الدلالي لترجمة الصور بين وجهات النظر المتقاطعة

ترجمة الصور بين وجهات النظر المختلفة هي تحدي بسبب الاختلاف الكبير في وجهات النظر والتشوه الشديد. في هذا البحث، نقترح نهجًا جديدًا يُسمى Multi-Channel Attention SelectionGAN (SelectionGAN)، والذي يجعل من الممكن إنشاء صور لمناظر طبيعية من وجهات نظر عشوائية، بناءً على صورة للمنظر وخارطة معنوية جديدة. يتكون النموذج المقترح SelectionGAN من مرحلتين ويستخدم المعلومات المعنوية بشكل صريح. في المرحلة الأولى، يتم تغذية الصورة المشروطة والخارطة المعنوية المستهدفة إلى شبكة توليد موجهة بالمعنى الدائرة لإنتاج نتائج خشنة أولية. في المرحلة الثانية، نقوم بتحسين النتائج الأولية باستخدام آلية اختيار الانتباه متعددة القنوات. بالإضافة إلى ذلك، يتم استخدام خرائط عدم اليقين التي تم تعلمها تلقائيًا من الانتباهات لتوجيه الخسارة البكسلية لتحقيق تحسين أفضل في الشبكة. أظهرت التجارب الواسعة على مجموعات البيانات Dayton وCVUSA وEgo2Top أن نموذجنا قادر على إنتاج نتائج أفضل بكثير من الأساليب الرائدة حاليًا. يمكن الحصول على الكود المصدر والبيانات والنماذج المدربة من الرابط: https://github.com/Ha0Tang/SelectionGAN.