HyperAIHyperAI

Command Palette

Search for a command to run...

وجبة مجانية من ViT: التحويلة متعددة المقياس مع انتباه تكيفي لدمج المعلومات للتمييز البصري الدقيق

Yuan Zhang Jian Cao Ling Zhang Xiangcheng Liu Zhiyi Wang Feng Ling Weiqian Chen

الملخص

تلعب عملية التعلّم على تمثيل دقيق للأجزاء الموضوعية دورًا محوريًا في مجال التعرف البصري الدقيق (FGVR). حققت نموذج التحويل البصري (ViT) نتائج واعدة في مجال الرؤية الحاسوبية بفضل آلية الانتباه الخاصة به. ومع ذلك، وبسبب الحجم الثابت للقطع (patches) في ViT، فإن "الرمز الفئة" (class token) في الطبقات العميقة يركز على مجال الاستقبال الشامل (global receptive field) ولا يمكنه إنتاج ميزات متعددة الحجم (multi-granularity) المطلوبة للتعرف الدقيق. وللتغلب على هذه النقطة الضعيفة في ViT، وتمكين التقاط انتباه المناطق دون الحاجة إلى علامات مربعات (box annotations)، نقترح طريقة جديدة تُسمى "محول الانتباه التكيفي متعدد المقاييس (AFTrans)". يعتمد نموذج جمع الانتباه المُختار (SACM) في منهجنا على أوزان الانتباه في ViT، ويقوم بتصفية هذه الأوزان بشكل تكيفي لتعكس الأهمية النسبية لكل قطعة مدخلة. ويتم تدريب النموذج على خط أنابيب متعددة المقاييس (مدى عالمي ومحلي) تحت إشراف مشغل تشفير يشارك الأوزان، ما يمكّنه من التدريب بشكل مباشر ونهائي (end-to-end). وأظهرت التجارب الشاملة أن AFTrans تحقق أداءً رائدًا (SOTA) على ثلاث معايير منشورة للتعرف الدقيق: CUB-200-2011، وStanford Dogs، وiNat2017.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp