منذ 6 أشهر

الملخص

لقد كانت التعرف البصري مهيمنًا عليه الشبكات العصبية التلافيفية (CNNs) لسنوات عديدة. وعلى الرغم من أن النماذج القائمة على التحويلات البصرية (ViTs) التي تُظهر إمكانات كبيرة للنماذج القائمة على الانتباه الذاتي في تصنيف ImageNet، إلا أن أدائها لا يزال متأخرًا عن أحدث النماذج القياسية (SOTA) القائمة على CNNs إذا لم تُستخدم بيانات إضافية. في هذا العمل، نسعى إلى تضييق الفجوة في الأداء، ونُظهر أن النماذج القائمة على الانتباه قادرة فعلاً على التفوق على الشبكات العصبية التلافيفية. ووجدنا أن العامل الرئيسي المُحدِّد لأداء ViTs في تصنيف ImageNet هو انخفاض كفاءتها في ترميز السمات الدقيقة داخل تمثيلات الرموز (tokens). لحل هذه المشكلة، نُقدّم انتباهًا بصريًا جديدًا، ونُقدّم بنية بسيطة وعامة تُسمّى Vision Outlooker (VOLO). على عكس الانتباه الذاتي الذي يركّز على نمذجة الاعتماديات العالمية على مستوى خشن، فإن انتباه "المنظور الخارجي" (outlook attention) يُشفّر السمات والسياقات الأدق بكفاءة داخل الرموز، وهو ما أُظهر أنه مفيد بشكل حاسم لأداء التعرف، لكنه تم تجاهله إلى حد كبير من قبل الانتباه الذاتي. تُظهر التجارب أن VOLO يحقق دقة أعلى بنسبة 87.1% في تصنيف ImageNet-1K، وهي أول نموذج يتجاوز 87% من الدقة على هذا المعيار التنافسي، دون استخدام أي بيانات تدريب إضافية. علاوةً على ذلك، فإن VOLO المُدرّب مسبقًا يُحوّل بفعالية إلى المهام التالية، مثل التجزئة المعنى (semantic segmentation)، حيث نحقق 84.3% من مقياس mIoU على مجموعة التحقق من Cityscapes، و54.3% على مجموعة التحقق من ADE20K. يمكن الوصول إلى الكود من خلال الرابط: \url{https://github.com/sail-sg/volo}.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار