HyperAIHyperAI

Command Palette

Search for a command to run...

الانتباه الذاتي المركزي للتفاعلات المحلية-الشاملة في نماذج التحويل البصري

Jianwei Yang Chunyuan Li Pengchuan Zhang Xiyang Dai Bin Xiao Lu Yuan Jianfeng Gao

الملخص

في الآونة الأخيرة، أظهرت نماذج "مُحول الرؤية" (Vision Transformer) ومشتقاتها إمكانات كبيرة في مجموعة متنوعة من مهام الرؤية الحاسوبية. يُعدّ القدرة على التقاط الاعتماديات البصرية القصيرة والطويلة المدى من خلال الانتباه الذاتي (self-attention) المصدر الرئيسي للنجاح، لكنها تفرض أيضًا تحديات ناتجة عن التكلفة الحسابية التربيعية، خاصة في المهام ذات الدقة العالية (مثل كشف الكائنات). في هذا البحث، نقدّم آلية جديدة تُسمى "الانتباه المركّز" (focal self-attention)، التي تدمج التفاعلات الدقيقة الموضعية مع التفاعلات العامة الخشنة. باستخدام هذه الآلية الجديدة، يُراعي كل رمز (token) الرموز المجاورة الأقرب بدقة عالية، بينما يراعي الرموز البعيدة بدقة منخفضة، مما يمكّنه من التقاط الاعتماديات البصرية القصيرة والطويلة المدى بكفاءة وفعالية. وباستخدام الانتباه المركّز، نقترح نموذجًا جديدًا من نماذج "مُحول الرؤية" يُسمى "مُحول المركّز" (Focal Transformer)، والذي يحقق أداءً متفوقًا على أفضل النماذج الحالية في مجموعة من معايير التصنيف الصوتي وكشف الكائنات العامة. وبشكل خاص، تحقق نماذج "مُحول المركّز" ذات الحجم المعتدل (51.1 مليون معلمة) وذات الحجم الأكبر (89.8 مليون معلمة) دقة قصوى تبلغ 83.5 و83.8 على مؤشر Top-1 في تصنيف صور ImageNet عند دقة 224x224. وباستخدام "مُحولات المركّز" كأساس (backbones)، نحصل على تحسينات مستمرة وملحوظة مقارنة بنموذج "Swin Transformers" الحائز على أفضل الأداء الحالي، في ستة أساليب مختلفة لكشف الكائنات، مع تدريب باستخدام جداول قياسية 1x و3x. وتحقق أكبر نموذج من "مُحول المركّز" قياسات 58.7/58.9 في متوسط دقة الصندوق (box mAP) و50.9/51.3 في متوسط دقة القناع (mask mAP) على مجموعة بيانات COCO mini-val/test-dev، و55.4 في متوسط التشابه المتقاطع (mIoU) على ADE20K لتصنيف معنى الصورة، مما يُحدث حالة جديدة من الأداء المتفوق (SoTA) في ثلاث من أصعب مهام الرؤية الحاسوبية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp