HyperAIHyperAI

Command Palette

Search for a command to run...

VOLO: منظور الرؤية للتمييز البصري

Li Yuan Qibin Hou Zihang Jiang Jiashi Feng Shuicheng Yan

الملخص

لقد كانت التعرف البصري مهيمنًا عليه الشبكات العصبية التلافيفية (CNNs) لسنوات عديدة. وعلى الرغم من أن النماذج القائمة على التحويلات البصرية (ViTs) التي تُظهر إمكانات كبيرة للنماذج القائمة على الانتباه الذاتي في تصنيف ImageNet، إلا أن أدائها لا يزال متأخرًا عن أحدث النماذج القياسية (SOTA) القائمة على CNNs إذا لم تُستخدم بيانات إضافية. في هذا العمل، نسعى إلى تضييق الفجوة في الأداء، ونُظهر أن النماذج القائمة على الانتباه قادرة فعلاً على التفوق على الشبكات العصبية التلافيفية. ووجدنا أن العامل الرئيسي المُحدِّد لأداء ViTs في تصنيف ImageNet هو انخفاض كفاءتها في ترميز السمات الدقيقة داخل تمثيلات الرموز (tokens). لحل هذه المشكلة، نُقدّم انتباهًا بصريًا جديدًا، ونُقدّم بنية بسيطة وعامة تُسمّى Vision Outlooker (VOLO). على عكس الانتباه الذاتي الذي يركّز على نمذجة الاعتماديات العالمية على مستوى خشن، فإن انتباه "المنظور الخارجي" (outlook attention) يُشفّر السمات والسياقات الأدق بكفاءة داخل الرموز، وهو ما أُظهر أنه مفيد بشكل حاسم لأداء التعرف، لكنه تم تجاهله إلى حد كبير من قبل الانتباه الذاتي. تُظهر التجارب أن VOLO يحقق دقة أعلى بنسبة 87.1% في تصنيف ImageNet-1K، وهي أول نموذج يتجاوز 87% من الدقة على هذا المعيار التنافسي، دون استخدام أي بيانات تدريب إضافية. علاوةً على ذلك، فإن VOLO المُدرّب مسبقًا يُحوّل بفعالية إلى المهام التالية، مثل التجزئة المعنى (semantic segmentation)، حيث نحقق 84.3% من مقياس mIoU على مجموعة التحقق من Cityscapes، و54.3% على مجموعة التحقق من ADE20K. يمكن الوصول إلى الكود من خلال الرابط: \url{https://github.com/sail-sg/volo}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VOLO: منظور الرؤية للتمييز البصري | مستندات | HyperAI