MAT: محول مُدرك للقناع للإعادة تعبئة الصور ذات الفجوات الكبيرة

أظهرت دراسات حديثة الأهمية البالغة لنمذجة التفاعلات طويلة المدى في مشكلة التعبئة (inpainting). لتحقيق هذا الهدف، تعتمد الأساليب الحالية إما على تقنيات الانتباه المستقلة أو نماذج الترانسفورمر (transformers)، ولكن عادةً ما تعمل ضمن دقة منخفضة نظرًا للتكلفة الحسابية. في هذا البحث، نقدم نموذجًا جديدًا مبنيًا على الترانسفورمر لمشكلة التعبئة بثغور كبيرة، والذي يوحد مزايا الترانسفورمر والتحويلات التلافيفية (convolutions) لمعالجة الصور عالية الدقة بكفاءة. وقد صممنا بعناية كل مكوّن من مكونات إطارنا لضمان وضوح الصورة المُستعادة وتنوعها. وبشكل خاص، قمنا بتصميم كتلة ترانسفورمر مخصصة لمشكلة التعبئة، حيث تقوم وحدة الانتباه بتجميع المعلومات غير المحلية فقط من الرموز الصالحة الجزئية، وفقًا لقناع ديناميكي. أظهرت التجارب الواسعة أداءً متميزًا على مستوى الحد الأقصى في عدة مجموعات بيانات معيارية. تم إتاحة الكود على الرابط: https://github.com/fenglinglwb/MAT.