AutoFocusFormer: التجزئة الصورية خارج الشبكة

غالبًا ما تحتوي الصور الواقعية على كثافة محتوى غير متوازنة للغاية. فبعض المناطق تكون متجانسة جدًا، مثل مساحات كبيرة من السماء الزرقاء، بينما تكون مناطق أخرى متناثرة بكميات كبيرة من الكائنات الصغيرة. ومع ذلك، فإن الاستراتيجية الشائعة لخفض الحجم بالشبكة المتتالية في الشبكات العميقة ذات التحويلات التلافيفية تعامل جميع المناطق بالتساوي. وبالتالي، تُمثل الكائنات الصغيرة في عدد قليل جدًا من المواقع المكانية، مما يؤدي إلى نتائج أضعف في المهام مثل التجزئة. من الناحية البديهية، فإن الحفاظ على عدد أكبر من البكسلات التي تمثل الكائنات الصغيرة أثناء عملية خفض الحجم يساعد على الحفاظ على المعلومات المهمة. ولتحقيق ذلك، نقترح نموذج AutoFocusFormer (AFF)، وهو هيكل أساسي لتمييز الصور يعتمد على محول يعتمد على الانتباه المحلي، والذي يقوم بخفض الحجم التكيفي من خلال تعلُّم الحفاظ على أهم بكسلات للعملية. وبما أن خفض الحجم التكيفي يُنتج مجموعة من البكسلات الموزعة بشكل غير منتظم على مستوى الصورة، نتخلى عن الهيكل الشبكي التقليدي. بدلًا من ذلك، نطور كتلة انتباه محلية قائمة على النقاط، مدعومة بوحدة تجميع متوازنة ووحدة اندماج جوار قابلة للتعلم، والتي تُنتج تمثيلات لنسخة مبنية على النقاط من أحدث هيئات التجزئة المتطورة. أظهرت التجارب أن AutoFocusFormer (AFF) يتفوّق بشكل ملحوظ على النماذج الأساسية ذات الحجم المشابه.