HyperAIHyperAI

Command Palette

Search for a command to run...

موات: التبديل بين التحويلات المتنقلة والانتباه يُحدث نماذج رؤية قوية

Chenglin Yang Siyuan Qiao Qihang Yu Xiaoding Yuan Yukun Zhu Alan Yuille Hartwig Adam Liang-Chieh Chen

الملخص

تقدم هذه الورقة مجموعَة من الشبكات العصبية تُسمى MOAT، والتي تُبنى على أساس التحويل المتنقل (أي كتل التكرار المقلوب) والانتباه (ATtention). على عكس الدراسات الحالية التي ترتب كتل التحويل المتنقلة وكتل المحولات (transformer) بشكل منفصل، ندمجها بشكل فعّال في كتلة MOAT واحدة. نبدأ بكتلة محول قياسية، ونستبدل فيها الوحدة المتعددة الطبقات (multi-layer perceptron) بكتلة تحويل متنقل، ثم نعيد ترتيبها قبل عملية الانتباه الذاتي. لا تُعزز كتلة التحويل المتنقلة فقط قدرة الشبكة على التمثيل، بل تُنتج أيضًا ميزات مُقلَّصة (downsampled) أفضل. وعلى الرغم من بساطة المفهوم، تُظهر شبكات MOAT فعالية مُدهشة، حيث تحقق دقة 89.1٪ / 81.5٪ في التصنيف الأول (top-1) على ImageNet-1K / ImageNet-1K-V2 عند التدريب المسبق باستخدام ImageNet22K. علاوةً على ذلك، يمكن تطبيق MOAT بسلاسة على المهام التالية التي تتطلب إدخالات ذات دقة عالية من خلال تحويل الانتباه العالمي إلى انتباه نافذة (window attention) فقط. وبفضل التحويل المتنقل الذي يُجري تبادل المعلومات المحلية بين البكسلات (وبالتالي بين النوافذ المختلفة)، لا تحتاج MOAT إلى آلية إزاحة نوافذ إضافية. ونتيجة لذلك، تحقق MOAT دقة 59.2٪ في كشف الكائنات على COCO (باستخدام 227 مليون معلمة، واستنتاج بمقاييس واحدة، وتقنية NMS الصعبة)، وتحصل على 57.6٪ في تقييم mIoU في تجزئة الصور (semantic segmentation) على ADE20K (باستخدام 496 مليون معلمة، واستنتاج بمقاييس واحدة). وأخيرًا، تم تطوير عائلة tiny-MOAT من خلال تقليل حجم القنوات فقط، وتبين أنها تتفوق بشكل مفاجئ على عدة نماذج قائمة على المحولات مخصصة للأجهزة المتنقلة على ImageNet. كما تم اختبار عائلة tiny-MOAT على مهام تالية، لتُستخدم كمُعيار مرجعي (baseline) للمجتمع. نأمل أن تُحفّز MOAT البسيطة ولكن الفعّالة المجتمع العلمي على تحقيق تكامل أكثر سلاسة بين التحويلات (convolution) والانتباه الذاتي. وتم إتاحة الكود بشكل عام للجمهور.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
موات: التبديل بين التحويلات المتنقلة والانتباه يُحدث نماذج رؤية قوية | مستندات | HyperAI