VOLO: منظور الرؤية للتمييز البصري

لقد كانت التعرف البصري مهيمنًا عليه الشبكات العصبية التلافيفية (CNNs) لسنوات عديدة. وعلى الرغم من أن النماذج القائمة على التحويلات البصرية (ViTs) التي تُظهر إمكانات كبيرة للنماذج القائمة على الانتباه الذاتي في تصنيف ImageNet، إلا أن أدائها لا يزال متأخرًا عن أحدث النماذج القياسية (SOTA) القائمة على CNNs إذا لم تُستخدم بيانات إضافية. في هذا العمل، نسعى إلى تضييق الفجوة في الأداء، ونُظهر أن النماذج القائمة على الانتباه قادرة فعلاً على التفوق على الشبكات العصبية التلافيفية. ووجدنا أن العامل الرئيسي المُحدِّد لأداء ViTs في تصنيف ImageNet هو انخفاض كفاءتها في ترميز السمات الدقيقة داخل تمثيلات الرموز (tokens). لحل هذه المشكلة، نُقدّم انتباهًا بصريًا جديدًا، ونُقدّم بنية بسيطة وعامة تُسمّى Vision Outlooker (VOLO). على عكس الانتباه الذاتي الذي يركّز على نمذجة الاعتماديات العالمية على مستوى خشن، فإن انتباه "المنظور الخارجي" (outlook attention) يُشفّر السمات والسياقات الأدق بكفاءة داخل الرموز، وهو ما أُظهر أنه مفيد بشكل حاسم لأداء التعرف، لكنه تم تجاهله إلى حد كبير من قبل الانتباه الذاتي. تُظهر التجارب أن VOLO يحقق دقة أعلى بنسبة 87.1% في تصنيف ImageNet-1K، وهي أول نموذج يتجاوز 87% من الدقة على هذا المعيار التنافسي، دون استخدام أي بيانات تدريب إضافية. علاوةً على ذلك، فإن VOLO المُدرّب مسبقًا يُحوّل بفعالية إلى المهام التالية، مثل التجزئة المعنى (semantic segmentation)، حيث نحقق 84.3% من مقياس mIoU على مجموعة التحقق من Cityscapes، و54.3% على مجموعة التحقق من ADE20K. يمكن الوصول إلى الكود من خلال الرابط: \url{https://github.com/sail-sg/volo}.