
تُعد نماذج الترانسفورمر (Transformers) واحدة من أكثر هياكل التعلم العميق تطبيقًا على نطاق واسع عبر الأنواع المختلفة، والمناهج، والمجالات، والمهام. في مجال الرؤية الحاسوبية، وبالإضافة إلى الجهود المستمرة المبذولة لتطوير الترانسفورمرات البسيطة، اكتسبت الترانسفورمرات الهرمية اهتمامًا كبيرًا، وذلك بفضل أدائها العالي وسهولة دمجها في الإطارات الحالية. وتُستخدم هذه النماذج عادةً آليات انتباه موضعية، مثل انتباه الجيران المتنقل (Neighborhood Attention - NA) أو انتباه الانتباه الذاتي للنافذة المنزَّلة (Shifted Window Self Attention) في نموذج Swin Transformer. وعلى الرغم من فعاليتها في تقليل التعقيد التربيعي للانتباه الذاتي، فإن الانتباه الموضعي يُضعف إحدى الخاصيتين الأكثر رغبة في الانتباه الذاتي: نمذجة الترابطات طويلة المدى، وحجم المجال الاستقبال العالمي. في هذا البحث، نقدّم انتباه الجيران المُتَوَسِّع (Dilated Neighborhood Attention - DiNA)، وهو امتداد طبيعي ومرن وفعال لآليات NA، قادر على استيعاب سياق أكثر شمولاً وتوسيع المجال الاستقبالي بشكل أسّي دون تكلفة إضافية. يكمل انتباه NA الموضعي وانتباه DiNA العالمي النادر بعضهما البعض، ولهذا نقدّم نموذج الترانسفورمر المُتَوَسِّع لجيران الانتباه (Dilated Neighborhood Attention Transformer - DiNAT)، وهو نموذج ترانسفورمر هرمي جديد مبني على كليهما. تُظهر نماذج DiNAT تحسينات كبيرة مقارنة بالأسس القوية مثل NAT وSwin وConvNeXt. يُظهر النموذج الكبير لدينا أداءً أسرع من نموذج Swin، مع تفوق بنسبة 1.6% في مؤشر AP المربع (box AP) في كشف الكائنات على COCO، و1.4% في مؤشر AP القناع (mask AP) في تجزئة الكائنات على COCO، و1.4% في مؤشر mIoU في التجزئة الدلالية على ADE20K. وباستخدام إطارات جديدة، أصبحت النسخة الكبيرة لدينا النموذج القياسي الجديد (state-of-the-art) في التجزئة الشاملة (panoptic segmentation) على COCO (58.5 PQ) وADE20K (49.4 PQ)، وكذلك النموذج القياسي في تجزئة الكائنات على Cityscapes (45.1 AP) وADE20K (35.4 AP) (بدون استخدام بيانات إضافية). كما يُساوي أداء النموذج القياسي المخصص في التجزئة الدلالية على ADE20K (58.1 mIoU)، ويُصنف في المرتبة الثانية على Cityscapes (84.5 mIoU) (بدون بيانات إضافية).