HyperAIHyperAI

Command Palette

Search for a command to run...

فهم الانحياز الاحتمالي الغاوسي في انتباه الرؤية للنماذج التحويلية باستخدام الحقول المستقبلية الفعالة

Bum Jun Kim Hyeyeon Choi Hyeonah Jang Sang Woo Kim

الملخص

أظهرت نماذج المحولات البصرية (ViTs)، التي تُعامل الصورة كسلسلة من القطع المُقسَّمة، أداءً ملحوظًا في مهام الرؤية المتنوعة. وبما أن تقسيم الصورة إلى قطع يُفقد البنية البصرية للصورة، تستخدم ViTs مكونًا صريحًا يُسمى "الإدخال المكاني" (positional embedding) لتمثيل ترتيب القطع. ومع ذلك، ندّعي أن استخدام الإدخال المكاني لا يضمن تلقائيًا وعي ViT بترتيب القطع. لدعم هذا الادعاء، قمنا بتحليل السلوك الفعلي لـ ViTs باستخدام مجال الاستقبال الفعّال (effective receptive field). وأظهرنا أنه أثناء التدريب، يكتسب ViT فهمًا لترتيب القطع من خلال الإدخال المكاني الذي يتم تدريبه ليكون نمطًا محددًا. استنادًا إلى هذه الملاحظة، نقترح إضافة مُتحوّل انتباه غاوسي (Gaussian attention bias) صريحًا، يوجه الإدخال المكاني إلى اعتماد النمط المقابل منذ بداية التدريب. وقد قُمنا بتقييم تأثير مُتحوّل الانتباه الغاوسي على أداء ViTs في عدة تجارب تشمل تصنيف الصور، والكشف عن الكائنات، والتقسيم الدلالي. وقد أظهرت النتائج أن الطريقة المقترحة لا تُسهّل فقط على ViTs فهم الصور، بل تُعزز أيضًا أداؤها على مجموعة متنوعة من المجموعات البيانات، بما في ذلك ImageNet وCOCO 2017 وADE20K.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp