إكمال صور متعددة الوجوه عالية الدقة باستخدام المحولات

أحرزت مُكملة الصور تقدماً كبيراً بفضل الشبكات العصبية التلافيفية (CNN)، نظراً لقدرتها القوية على نمذجة النسيج. ومع ذلك، نظراً لخصائصها الجوهرية (مثل الاتجاه الاستقرائي المحلي، والكيرنل الثابت مكانيًا)، فإن الشبكات التلافيفية لا تؤدي بشكل جيد في فهم الهياكل العالمية أو دعم مُكملة متعددة التوجهات بشكل طبيعي. في الآونة الأخيرة، أظهرت نماذج المحولات (Transformers) قوتها في نمذجة العلاقات طويلة المدى وإنتاج نتائج متنوعة، لكنها تعاني من تعقيد حسابي تربيعي بالنسبة لطول المدخلات، مما يعيق تطبيقها في معالجة الصور عالية الدقة. تُقدّم هذه الورقة الجمع بين أفضل ما في كلا النوعين من النماذج لتحسين مُكملة الصور متعددة التوجهات: إعادة بناء السمات المرئية باستخدام المحولات، وتعويض النسيج باستخدام الشبكات التلافيفية. حيث تُعيد المحولات المُعاد تشكيل الهياكل المتماسكة المتعددة التوجهات مع بعض النسيج الأولي الخشن، في حين تعمل الشبكات التلافيفية على تعزيز تفاصيل النسيج المحلية للسياقات الأولية الخشنة، بقيادة الصور ذات الدقة العالية التي تحتوي على مناطق مُغطاة. يتفوق الأسلوب المقترح بشكل كبير على أحدث الأساليب من حيث ثلاث جوانب: 1) تحسين كبير في جودة الصورة، حتى مقارنةً بأساليب المُكملة المحددة؛ 2) تنوّع أفضل ودقة أعلى في المُكملة متعددة التوجهات؛ 3) قدرة استيعابية استثنائية على نطاقات مُغطاة كبيرة والبيانات العامة، مثل ImageNet.