HyperAIHyperAI
منذ 17 أيام

DAT++: نموذج رؤية ترانسفورمر ديناميكي مكانيًا مع انتباه قابل للتشويه

Zhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang
DAT++: نموذج رؤية ترانسفورمر ديناميكي مكانيًا مع انتباه قابل للتشويه
الملخص

أظهرت نماذج الترانسفورمر أداءً متفوقًا في مجموعة متنوعة من المهام البصرية. إن المجال الاستقبال الكبير الذي تمتع به نماذج الترانسفورمر يمنحها قدرة تمثيلية أعلى مقارنةً بنماذج الشبكات العصبية التلافيفية (CNN). ومع ذلك، فإن توسيع المجال الاستقبالي بشكل بسيط يثير أيضًا عدة مخاوف. من ناحية، يؤدي استخدام الانتباه الكثيف في نموذج ViT إلى تكاليف ذاكرة وحسابية كبيرة جدًا، كما يمكن أن تتأثر الميزات بمناطق غير ذات صلة تقع خارج مناطق الاهتمام. ومن ناحية أخرى، فإن الانتباه المُصمم يدويًا في نماذج PVT أو Swin Transformer لا يعتمد على البيانات، وقد يحد من قدرة النموذج على نمذجة العلاقات الطويلة المدى. ولحل هذا التناقض، نقترح وحدة انتباه متعددة الرؤوس قابلة للتشويه (deformable multi-head attention)، حيث يتم تخصيص مواقع أزواج المفاتيح (keys) والقيم (values) في عملية الانتباه الذاتي بطريقة تكيفية تعتمد على البيانات. يمكّن هذا النموذج المرن النموذج المُقترح من التركيز ديناميكيًا على المناطق ذات الصلة مع الحفاظ على قدرة الانتباه الشامل. استنادًا إلى هذا الأساس، نقدم نموذج "الانتباه القابل للتشويه في الترانسفورمر" (Deformable Attention Transformer - DAT)، وهو هيكل أساسي عام لمهام التعرف البصري، يتميز بالكفاءة والفعالية. ونتيجة لذلك، نطور نسخة محسّنة منه تُسمى DAT++. تُظهر التجارب الواسعة أن نموذج DAT++ يحقق نتائج متميزة على مجموعة متنوعة من معايير التعرف البصري، حيث تصل دقة تصنيف ImageNet إلى 85.9%، وتحقق دقة التجزئة الفردية على MS-COCO 54.5 و47.0 (mAP)، كما تصل دقة التجزئة المعنى على ADE20K إلى 51.5 (mIoU).

DAT++: نموذج رؤية ترانسفورمر ديناميكي مكانيًا مع انتباه قابل للتشويه | أحدث الأوراق البحثية | HyperAI