HyperAIHyperAI
منذ 3 أشهر

CFAT: إطلاق النوافذ المثلثية لتحسين دقة الصور

{Maheshkumar H. Kolekar, Gaurav Kumar, Abhisek Ray}
CFAT: إطلاق النوافذ المثلثية لتحسين دقة الصور
الملخص

أحدثت النماذج القائمة على مُحَوِّل (Transformer) ثورة في مجال تحسين دقة الصور (SR) بفضل قدرتها الطبيعية على استخلاص السمات السياقية المعقدة. إن تقنية النافذة المستطيلة المُزَوَّقة المتقاطعة التي تُستخدم حاليًا في هندسة المُحَوِّل أصبحت ممارسة شائعة في نماذج تحسين الدقة، بهدف تحسين جودة وثبات تكبير الصور. ومع ذلك، تُعاني هذه التقنية من تشوهات عند الحدود، كما أن عدد نماذج التزامن المُتاحة محدود. وللتغلب على هذه العيوب، نقترح تقنية نافذة مثلثية غير متداخلة تعمل بالتوازي مع النافذة المستطيلة، بهدف تقليل التشوهات عند الحدود وتمكين النموذج من استكشاف نماذج تزامن أكثر تنوعًا. في هذا البحث، نُقدّم نموذج "محوِّل الانتباه المُركَّب المُدمج" (CFAT)، الذي يدمج انتباهًا محليًا مبنيًا على النافذة المستطيلة والمثلثية مع تقنية انتباه عالمي قائمة على القنوات في مجال تحسين دقة الصور. ونتيجة لذلك، يمكّن CFAT آليات الانتباه من التفعيل على عدد أكبر من بكسلات الصورة، ويُمكّن النموذج من استخلاص سمات متعددة المقياس على مدى طويل، مما يُحسّن أداء تحسين الدقة. تُظهر النتائج التجريبية الواسعة والدراسة التحليلية (Ablation Study) فعالية CFAT في مجال تحسين الدقة. ويُظهر النموذج المقترح تحسنًا ملحوظًا بنسبة 0.7 ديسيبل مقارنةً بباقي النماذج الرائدة في مجال تحسين الدقة.