إعادة إنتاج الصور عبر الزوايا المختلفة باستخدام شبكات GAN المشروطة

تعلم توليد المشاهد الطبيعية كان دائمًا مهمة صعبة في مجال رؤية الحاسوب. يصبح الأمر أكثر تعقيدًا عندما يكون التوليد مشروطًا بصور ذات وجهات نظر مختلفة بشكل كبير. هذا يعود أساسًا إلى أن فهم المعلومات البصرية والدلالية وتوافقها وتغييرها عبر وجهات النظر ليس بالأمر السهل. في هذه الورقة البحثية، نحاول حل المشكلة الجديدة لتوليد الصور بين وجهات النظر المختلفة، من المناظر الجوية إلى المناظر الشارعية والعكس صحيح، باستخدام شبكات المواجهة التوليدية المشروطة (cGAN). تم اقتراح معماريتين جديدتين تُعرفان باسم Crossview Fork (X-Fork) وCrossview Sequential (X-Seq) لتوليد مشاهد بدقة 64x64 و256x256 بكسل.تتميز معمارية X-Fork بوجود مميز واحد ومولد واحد. يقوم المولد بتخيل كل من الصورة وتقسيمها الدلالي في وجهة النظر المستهدفة. أما معمارية X-Seq فتستخدم شبكتين من cGAN. تقوم الأولى بتوليد الصورة المستهدفة التي يتم إدخالها بعد ذلك إلى الشبكة الثانية من cGAN لتوليد خريطة التقسيم الدلالي المقابلة لها. يساعد الرجوع المرتد من الشبكة الثانية على توليد صور أكثر حدة بواسطة الشبكة الأولى.كلا المعماريتين المقترحتين لدينا تتعلم توليد صور طبيعية بالإضافة إلى خرائط تقسيمها الدلالي. تظهر الطرق المقترحة أنها قادرة على التقاط والحفاظ على الدلالات الحقيقية للأجسام في وجهتي النظر المصدر والمستهدف بشكل أفضل مما يمكن للطرق التقليدية لترجمة الصورة إلى صورة والتي تعتبر فقط المظهر البصري للمشهد. تدعم التقييمات النوعية والكمية الواسعة فعالية إطارنا العملي، بالمقارنة مع طريقتين رائدتين، في توليد المشاهد الطبيعية عبر وجهات النظر المختلفة بشكل كبير.