InfinityGAN: نحو التوليد الصوري ببكسل لانهائي

نقدم إطارًا جديدًا يُدعى InfinityGAN لإنشاء صور ذات أحجام عشوائية. يرتبط هذا المهمة بعدة تحديات رئيسية. أولاً، فإن توسيع النماذج الحالية لحجم صورة عشوائي يواجه قيودًا متعلقة بالموارد، سواء من حيث الحوسبة أو توفر بيانات التدريب ذات المجال الواسع. يتم تدريب InfinityGAN واستنتاجه بطريقة سلسة تُعالج الصور قطعةً قطعةً باستخدام موارد حوسبة منخفضة. ثانيًا، يجب أن تكون الصور الكبيرة متسقة محليًا وعالميًا، وتتجنب الأنماط المتكررة، وتعكس واقعية ملحوظة. ولحل هذه التحديات، يفصل InfinityGAN بين المظهر العام، والهياكل المحلية، والملمس. وبهذا الت formulization، يمكننا إنشاء صور بحجم فراغي ومستوى تفاصيل لم يكن ممكنًا سابقًا. وتوصل التقييمات التجريبية إلى أن InfinityGAN يُنتج صورًا ذات واقعية متفوقة مقارنةً بالأساليب الأساسية، وتمتلك استنتاجًا يمكن توازيه. وأخيرًا، نُظهر عدة تطبيقات مُفتوحة بفضل هذا النهج، مثل دمج الأنماط المكانية، والتوسيع متعدد النماط (multi-modal outpainting)، وتقديم الصور المتوسطة (image inbetweening). ويمكن تشغيل جميع هذه التطبيقات بمقاسات إدخال وإخراج عشوائية. يُرجى الاطلاع على النسخة الكاملة للورقة من خلال الرابط التالي: https://openreview.net/forum?id=ufGMqIM0a4b.