الجمع المتبقّي السياقي للإنقاص الصوري عالي الدقة للغاية

في الآونة الأخيرة، حققت الطرق القائمة على البيانات في تعبئة الصور تقدماً ملحوظاً، مما أثر بشكل جوهري على مهام التحرير الصوري الأساسية مثل إزالة الكائنات وإصلاح الصور التالفة. تُعد هذه الطرق أكثر فعالية من الأساليب الكلاسيكية، ولكن نظراً لقيود الذاكرة، فإنها قادرة فقط على التعامل مع مدخلات ذات دقة منخفضة، عادة ما تكون أقل من 1K. في الوقت نفسه، تزداد دقة الصور الملتقطة بواسطة الأجهزة المحمولة حتى تصل إلى 8K. إن التكبير البسيط للنتيجة الناتجة عن تعبئة الصور ذات الدقة المنخفضة يؤدي فقط إلى نتيجة كبيرة ولكن ضبابية. أما إضافة صورة تفاصيل عالية التردد (Residual Image) إلى الصورة الكبيرة الضبابية، فتُنتج نتيجة حادة، غنية بالتفاصيل والأنسجة. مستوحى من هذا المفهوم، نقترح آلية تسمى "تجميع البقايا السياقية" (Contextual Residual Aggregation - CRA)، التي تُنتج بقايا عالية التردد للمناطق المفقودة من خلال تجميع موزون للبقايا المستمدة من مناطق سياقية، وبالتالي تُقلل الحاجة إلى توقعات عالية الدقة من الشبكة. وبما أن طبقات التConvolution في الشبكة العصبية تعمل فقط على مدخلات ونتائج ذات دقة منخفضة، فإن تكلفة الذاكرة والقدرة الحسابية تُخفض بشكل فعّال. علاوة على ذلك، تُخفَّف الحاجة إلى مجموعات بيانات تدريب ذات دقة عالية. في تجاربنا، قمنا بتدريب النموذج المقترح على صور صغيرة بحجم 512×512، ونفّذنا الاستنتاج على صور ذات دقة عالية، ما أسفر عن جودة تعبئة متميزة. يمكن لنماذجنا تعبئة صور بحجم حتى 8K مع فجوات كبيرة بشكل ملحوظ، وهو ما كان مستحيلاً باستخدام الطرق القائمة على التعلم السابقة. ونُفصّل أيضاً في تصميم البنية الشبكية الخفيفة الوزن، مما يُتيح أداءً في الزمن الحقيقي على صور بحجم 2K باستخدام وحدة معالجة رسومات GTX 1080 Ti. يمكن الوصول إلى الشيفرة المصدرية من خلال: Atlas200dk/sample-imageinpainting-HiFill.