HyperAIHyperAI
منذ 17 أيام

فهم الانحياز الاحتمالي الغاوسي في انتباه الرؤية للنماذج التحويلية باستخدام الحقول المستقبلية الفعالة

Bum Jun Kim, Hyeyeon Choi, Hyeonah Jang, Sang Woo Kim
فهم الانحياز الاحتمالي الغاوسي في انتباه الرؤية للنماذج التحويلية باستخدام الحقول المستقبلية الفعالة
الملخص

أظهرت نماذج المحولات البصرية (ViTs)، التي تُعامل الصورة كسلسلة من القطع المُقسَّمة، أداءً ملحوظًا في مهام الرؤية المتنوعة. وبما أن تقسيم الصورة إلى قطع يُفقد البنية البصرية للصورة، تستخدم ViTs مكونًا صريحًا يُسمى "الإدخال المكاني" (positional embedding) لتمثيل ترتيب القطع. ومع ذلك، ندّعي أن استخدام الإدخال المكاني لا يضمن تلقائيًا وعي ViT بترتيب القطع. لدعم هذا الادعاء، قمنا بتحليل السلوك الفعلي لـ ViTs باستخدام مجال الاستقبال الفعّال (effective receptive field). وأظهرنا أنه أثناء التدريب، يكتسب ViT فهمًا لترتيب القطع من خلال الإدخال المكاني الذي يتم تدريبه ليكون نمطًا محددًا. استنادًا إلى هذه الملاحظة، نقترح إضافة مُتحوّل انتباه غاوسي (Gaussian attention bias) صريحًا، يوجه الإدخال المكاني إلى اعتماد النمط المقابل منذ بداية التدريب. وقد قُمنا بتقييم تأثير مُتحوّل الانتباه الغاوسي على أداء ViTs في عدة تجارب تشمل تصنيف الصور، والكشف عن الكائنات، والتقسيم الدلالي. وقد أظهرت النتائج أن الطريقة المقترحة لا تُسهّل فقط على ViTs فهم الصور، بل تُعزز أيضًا أداؤها على مجموعة متنوعة من المجموعات البيانات، بما في ذلك ImageNet وCOCO 2017 وADE20K.