Command Palette
Search for a command to run...
التركيب الصور من زوايا مختلفة باستخدام الشبكات العصبية التوليدية الشرطية
التركيب الصور من زوايا مختلفة باستخدام الشبكات العصبية التوليدية الشرطية
Regmi Krishna Borji Ali
الملخص
إن تعلّم إنشاء مشاهد طبيعية كان دائمًا مهمة صعبة في مجال الرؤية الحاسوبية. وتصبح هذه المهمة أكثر تعبًا عندما يكون التوليد مشروطًا بصورة تختلف جذريًا في المنظور. ويُعزى ذلك أساسًا إلى صعوبة فهم وتوافق وتحويل المعلومات البصرية والدلالية بين المنظورات المختلفة. في هذه الورقة، نسعى إلى حل المشكلة الجديدة المتمثلة في توليد الصور عبر منظورات مختلفة، سواء من منظور جوي إلى منظور شارع أو العكس، باستخدام الشبكات التوليدية المتنافسة المشروطة (cGAN). ونُقدّم معماريتن جديدتين تُسميان بـ "X-Fork" (فُرَّعِ الصورة المتقاطعة) و"X-Seq" (سلسلة الصورة المتقاطعة)، اللتين تُستخدمان لتوليد مشاهد بدقة 64×64 و256×256 بكسل. تمتلك معمارية X-Fork مُصنّفًا واحدًا وموصِّلًا واحدًا. يُولّد الموصِّل الصورة والخرائط التصنيفية الدلالية الخاصة بها في المنظور المستهدف. أما معمارية X-Seq، فتستعمل نوعين من الشبكات التوليدية المتنافسة المشروطة (cGAN). فالشبكة الأولى تُولّد الصورة المستهدفة، والتي تُقدَّم لاحقًا كمدخل للشبكة الثانية لتكوين الخريطة التصنيفية الدلالية المقابلة. ويساعد التغذية الراجعة من الشبكة الثانية في تمكين الشبكة الأولى من إنتاج صور أكثر وضوحًا ودقة. وتعلّم كلا المعماريتين المُقترحتين توليد صور طبيعية وخرائط تصنيف دلاليّة مُقابلة لها. وتُظهر النتائج أن الأساليب المقترحة قادرة على التقاط الحقيقة الدلالية للأجسام في المنظورين المصدر والمستهدف بشكل أفضل من الأساليب التقليدية لتحويل الصورة إلى صورة، التي تأخذ بعين الاعتبار فقط المظهر البصري للمنظر. وتدعم التقييمات الكمية والكيفية الواسعة فعالية الإطارات المقترحة مقارنةً بطريقتين من أحدث الطرق المطروحة في مجال توليد المشاهد الطبيعية عبر منظورات مختلفة جذريًا.