HyperAIHyperAI

Command Palette

Search for a command to run...

إلى تحسين مقاومة نموذج التحويل البصري

Xiaofeng Mao Gege Qi Yuefeng Chen Xiaodan Li Ranjie Duan Shaokai Ye Yuan He Hui Xue

الملخص

أظهرت التطورات الحديثة في نماذج التحويل البصري (ViT) ومتغيراتها المحسّنة أن الشبكات القائمة على الانتباه الذاتي تتفوق على الشبكات العصبية التلافيفية التقليدية (CNNs) في معظم مهام الرؤية الحاسوبية. ومع ذلك، فإن النماذج الحالية من ViT تركز بشكل رئيسي على الدقة القياسية وتكلفة الحساب، وتفتقر إلى دراسة التأثير الداخلي على موثوقية النموذج وقدرته على التعميم. في هذا العمل، نقوم بتقييم منهجي لمكونات ViT من حيث تأثيرها على المقاومة للامتدادات العدوانية، والتشوهات الشائعة، وانزياحات التوزيع. ووجدنا أن بعض المكونات قد تكون ضارة بموثوقية النموذج. من خلال استخدام المكونات المقاومة ودمجها كوحدات بناء لـ ViT، نقترح نموذج ViT المقاوم (RVT)، وهو نموذج جديد للتحويل البصري يتمتع بأداء متميز وموثوقية قوية. كما نقترح تقنيتين جديدتين يمكن تطبيقهما بسهولة تُسميان "توسيع الانتباه المُراعي للموضع" و"التعزيز على مستوى القطع"، والتي تُستخدم لتعزيز نموذج RVT، ونُختصر النموذج الناتج بـ RVT. تُظهر النتائج التجريبية على ImageNet وستة معايير مقاومة متقدمة تفوق RVT في المقاومة والقدرة على التعميم مقارنة بالنسخ السابقة من ViT والشبكات العصبية التلافيفية المتطورة. علاوة على ذلك، حقق النموذج RVT-S الترتيب الأول في العديد من لوحات الصدارة المتعلقة بالمقاومة، بما في ذلك ImageNet-C وImageNet-Sketch. وسيتم إتاحة الكود على الرابط: \url{https://github.com/alibaba/easyrobust}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إلى تحسين مقاومة نموذج التحويل البصري | مستندات | HyperAI