
بسبب تأثير تدهور العمق في الاتصالات المتبقية، غالبًا ما تفشل النماذج الفعالة لمحولات الرؤية التي تعتمد على تراكيب الطبقات لتداول المعلومات في إقامة خلط كافٍ للمعلومات، مما يؤدي إلى إدراك بصري غير طبيعي. ولحل هذه المشكلة، نقترح في هذه الورقة مُعامل خلط الرموز المسمى "الانتباه المجمّع" (Aggregated Attention)، وهو تصميم مستوحى من الطبيعة يُحاكي الرؤية الفوسيالية الحيوية والحركة المستمرة للعين، مع تمكين كل رمز على خريطة الميزات من امتلاك إدراك عالمي. علاوةً على ذلك، ندمج رموز قابلة للتعلم تتفاعل مع الاستعلامات والقيود التقليدية، مما يُثري توليد مصفوفات الارتباط بشكل أكبر من مجرد الاعتماد على التشابه بين الاستعلامات والقيود. لا تعتمد طريقة عملنا على التراكيب لتداول المعلومات، وبالتالي تتجنب بشكل فعّال تدهور العمق وتحقق إدراكًا بصريًا طبيعيًا. وبالإضافة إلى ذلك، نقترح "GLU التكاملي" (Convolutional GLU)، وهو معالج قناة يُسدّ الفجوة بين آلية GLU وآلية SE، حيث يمنح كل رمز انتباهًا قناةً بناءً على ميزات الصورة المجاورة له، مما يعزز قدرة النموذج على النمذجة المحلية وقوته المقاومة. ونُدمج بين الانتباه المجمّع وGLU التكاملي لخلق عصب خلفي بصري جديد يُسمى TransNeXt. تُظهر التجارب الواسعة أن TransNeXt تحقق أداءً متقدمًا جدًا على عدة أحجام نموذجية. عند دقة $224^2$، تصل TransNeXt-Tiny إلى دقة ImageNet البالغة 84.0%، متفوّقةً على ConvNeXt-B بـ 69% أقل من عدد المعاملات. بينما تحقق TransNeXt-Base دقة ImageNet تبلغ 86.2% ودقة ImageNet-A تبلغ 61.6% عند دقة $384^2$، وتحقيق mAP للكشف عن الكائنات في COCO يبلغ 57.1، وmIoU لتصنيف الدلالة في ADE20K يبلغ 54.7.