HyperAIHyperAI
منذ 17 أيام

موات: التبديل بين التحويلات المتنقلة والانتباه يُحدث نماذج رؤية قوية

Chenglin Yang, Siyuan Qiao, Qihang Yu, Xiaoding Yuan, Yukun Zhu, Alan Yuille, Hartwig Adam, Liang-Chieh Chen
موات: التبديل بين التحويلات المتنقلة والانتباه يُحدث نماذج رؤية قوية
الملخص

تقدم هذه الورقة مجموعَة من الشبكات العصبية تُسمى MOAT، والتي تُبنى على أساس التحويل المتنقل (أي كتل التكرار المقلوب) والانتباه (ATtention). على عكس الدراسات الحالية التي ترتب كتل التحويل المتنقلة وكتل المحولات (transformer) بشكل منفصل، ندمجها بشكل فعّال في كتلة MOAT واحدة. نبدأ بكتلة محول قياسية، ونستبدل فيها الوحدة المتعددة الطبقات (multi-layer perceptron) بكتلة تحويل متنقل، ثم نعيد ترتيبها قبل عملية الانتباه الذاتي. لا تُعزز كتلة التحويل المتنقلة فقط قدرة الشبكة على التمثيل، بل تُنتج أيضًا ميزات مُقلَّصة (downsampled) أفضل. وعلى الرغم من بساطة المفهوم، تُظهر شبكات MOAT فعالية مُدهشة، حيث تحقق دقة 89.1٪ / 81.5٪ في التصنيف الأول (top-1) على ImageNet-1K / ImageNet-1K-V2 عند التدريب المسبق باستخدام ImageNet22K. علاوةً على ذلك، يمكن تطبيق MOAT بسلاسة على المهام التالية التي تتطلب إدخالات ذات دقة عالية من خلال تحويل الانتباه العالمي إلى انتباه نافذة (window attention) فقط. وبفضل التحويل المتنقل الذي يُجري تبادل المعلومات المحلية بين البكسلات (وبالتالي بين النوافذ المختلفة)، لا تحتاج MOAT إلى آلية إزاحة نوافذ إضافية. ونتيجة لذلك، تحقق MOAT دقة 59.2٪ في كشف الكائنات على COCO (باستخدام 227 مليون معلمة، واستنتاج بمقاييس واحدة، وتقنية NMS الصعبة)، وتحصل على 57.6٪ في تقييم mIoU في تجزئة الصور (semantic segmentation) على ADE20K (باستخدام 496 مليون معلمة، واستنتاج بمقاييس واحدة). وأخيرًا، تم تطوير عائلة tiny-MOAT من خلال تقليل حجم القنوات فقط، وتبين أنها تتفوق بشكل مفاجئ على عدة نماذج قائمة على المحولات مخصصة للأجهزة المتنقلة على ImageNet. كما تم اختبار عائلة tiny-MOAT على مهام تالية، لتُستخدم كمُعيار مرجعي (baseline) للمجتمع. نأمل أن تُحفّز MOAT البسيطة ولكن الفعّالة المجتمع العلمي على تحقيق تكامل أكثر سلاسة بين التحويلات (convolution) والانتباه الذاتي. وتم إتاحة الكود بشكل عام للجمهور.

موات: التبديل بين التحويلات المتنقلة والانتباه يُحدث نماذج رؤية قوية | أحدث الأوراق البحثية | HyperAI