DAS: انتباه قابل للتشوه لالتقاط المعلومات البارزة في الشبكات العصبية التلافيفية

تتفوق الشبكات العصبية التلافيفية (CNNs) في التعرف على الأنماط المكانية المحلية. بالنسبة لمهام الرؤية العديدة، مثل التعرف على الكائنات والتقسيم، توجد أيضًا معلومات بارزة خارج حدود نواة CNN. ومع ذلك، تواجه CNN صعوبة في اكتشاف هذه المعلومات ذات الصلة بسبب مجال الاستقبال المحدود. يمكن لآلية الانتباه الذاتي تحسين وصول النموذج إلى المعلومات العالمية، لكنها تزيد من الحمل الحسابي. نقدم طريقة تلافيفية كاملة سريعة ومبسطة تُسمى DAS، والتي تساعد في توجيه الانتباه نحو المعلومات ذات الصلة. تستخدم DAS التلافيف المتغيرة لتحديد مناطق الصورة ذات الصلة، وتستخدم التلافيف المنفصلة لضمان الكفاءة. تُدمج DAS في الشبكات العصبية التلافيفية الحالية، وتنقل المعلومات ذات الصلة باستخدام آلية تمرير (gating mechanism). مقارنةً بتعقيد الحساب O(n²) الخاص باهتمام نماذج المحولات (Transformer-style attention)، فإن تعقيد DAS هو O(n). نحن ندعي أن قدرة DAS على توجيه انتباه مكثف نحو الميزات ذات الصلة تؤدي إلى تحسين الأداء عند إضافتها إلى شبكات CNN شائعة الاستخدام في تصنيف الصور والكشف عن الكائنات. على سبيل المثال، تُظهر DAS تحسينًا بنسبة 4.47% على مجموعة بيانات Stanford Dogs، و1.91% على ImageNet، و3.3% على COCO AP باستخدام نواة أساسية من نوع ResNet50. وتتفوق هذه الطريقة على آليات الانتباه الأخرى في الشبكات العصبية التلافيفية، مع استخدام عدد مماثل أو أقل من العمليات الحسابية (FLOPs). سيتم إتاحة الكود الخاص بنا للجمهور بشكل عام.