التحويلات السياقية المجمعة للإعادة تعبئة الصور عالية الدقة

تُعاني الطرق المتطورة حاليًا لاستكمال الصور من توليد هياكل مشوهة ونسيج ضبابي في الصور عالية الدقة (مثل 512×512). وتنبع هذه التحديات بشكل رئيسي من نقطتين: (1) استنتاج محتوى الصورة من سياقات بعيدة، و(2) توليد نسيج دقيق لمنطقة مفقودة كبيرة. ول superar هذه التحديين، نقترح نموذجًا مُحسّنًا يستند إلى الشبكة التوليدية التناقضية (GAN)، يُسمى الشبكة التوليدية التناقضية المُجمعة للتحويل السياقي (AOT-GAN)، لاستكمال الصور عالية الدقة. وبشكل خاص، لتحسين التفكير السياقي، نُنشئ مُولّد AOT-GAN من خلال تجميع عدة طبقات من كتلة AOT المُقترحة. حيث تُجمّع كتل AOT التحويلات السياقية من مجالات استقبال مختلفة، مما يسمح باستخلاص السياقات البعيدة المفيدة والأنماط الغنية ذات الاهتمام للتفكير السياقي. أما لتحسين توليد النسيج، فقد قمنا بتعزيز المُميّز (discriminator) في AOT-GAN من خلال تدريبه على مهمة مخصصة لتنبؤ بالقناع (mask-prediction). ويُجبر هذا الهدف التدريبي المُميّز على التمييز بين مظهر القطع الحقيقية والمعاد توليدَها بدقة، وبالتالي يُسهّل على المُولّد توليد نسيج واضح. وتبين المقارنات الواسعة على مجموعة بيانات Places2، التي تمثل أصعب معيار تقييم يحتوي على 1.8 مليون صورة عالية الدقة تمثل 365 مشهدًا معقدًا، أن نموذجنا يتفوق على أحدث النماذج بنسبة كبيرة، بتحسن نسبي في مؤشر FID بنسبة 38.60٪. كما يُؤكد دراسة المستخدمين التي شملت أكثر من 30 مشاركًا على التفوق الحقيقي لـ AOT-GAN. وتم تقييم النموذج المقترح أيضًا في تطبيقات عملية، مثل إزالة الشعارات، وتحرير الوجوه، وإزالة الأشياء. وتُظهر النتائج تحسينات واعدة في البيئة الواقعية. ونُعلن عن إتاحة الشفرة البرمجية والنماذج على الرابط: https://github.com/researchmm/AOT-GAN-for-Inpainting.