DaViT: نُقَطُ الانتباه المزدوج لمحولات الرؤية

في هذا العمل، نقدم معمارية "المحولات البصرية ذات الانتباه المزدوج" (DaViT)، وهي معمارية بسيطة ولكنها فعّالة لمحولات البصر، قادرة على التقاط السياق العالمي مع الحفاظ على الكفاءة الحسابية. نقترح معالجة المشكلة من زاوية متعامدة: استغلال آليات الانتباه الذاتي باستخدام كلا النوعين من "الرموز المكانية" و"الرموز القنواتية". عند استخدام الرموز المكانية، يُعرّف البُعد المكاني نطاق الرمز، بينما يُعرّف البُعد القناتي بُعد ميزات الرمز. أما عند استخدام الرموز القناتية، فإن الترتيب يكون عكسياً: يُعرّف البُعد القناتي نطاق الرمز، بينما يُعرّف البُعد المكاني بُعد ميزات الرمز. ونقوم كذلك بتجميع الرموز على طول الاتجاه التسلسلي لكل من الرموز المكانية والقناتية، بهدف الحفاظ على التعقيد الخطي للنموذج ككل. نوضح أن هذين النوعين من الانتباه الذاتي يكملان بعضهما البعض: (أ) نظرًا لأن كل رمز قناتي يحتوي على تمثيل موجز للصورة بأكملها، فإن الانتباه القناتي يلتقط تفاعلات وتمثيلات عالمية بشكل طبيعي من خلال أخذ جميع المواقع المكانية بعين الاعتبار عند حساب درجات الانتباه بين القنوات؛ (ب) يُحسّن الانتباه المكاني التمثيلات المحلية من خلال إجراء تفاعلات دقيقة عبر المواقع المكانية، مما يسهم بدوره في تحسين نموذج المعلومات العالمية في الانتباه القناتي. أظهرت التجارب الواسعة أن DaViT تحقق أداءً من الدرجة الأولى في أربع مهام مختلفة، مع حسابات فعّالة. وبلا استخدام بيانات إضافية، حققت نماذج DaViT-Tiny وDaViT-Small وDaViT-Base دقة أعلى من 1% على ImageNet-1K تبلغ 82.8% و84.2% و84.6% على التوالي، باستخدام 28.3 مليون و49.7 مليون و87.9 مليون معلمة. وعندما تم توسيع DaViT باستخدام 1.5 مليار زوج من الصور والنصوص المُدرّبة بشكل ضعيف، حقق DaViT-Gaint دقة أعلى من 1% تبلغ 90.4% على ImageNet-1K. يمكن الوصول إلى الشفرة المصدرية من خلال الرابط: https://github.com/dingmyu/davit.