مُحَوِّل مُتَعَدِّل مُنَفَّصِل-مُتَّحِد

تطورت الشبكات العصبية لفهم المحتوى البصري مؤخرًا من الشبكات العصبية التلافيفية (CNNs) إلى الشبكات العصبية القائمة على التحويل (Transformers). تعتمد الشبكات التلافيفية السابقة على كيرنلز صغيرة النافذة لاستخلاص الملامح المحلية، مما يُظهر قدرة قوية على التعبير عن السياق المحلي. أما الشبكات القائمة على التحويل، فتُنشئ ارتباطات طويلة المدى بين المناطق المحلية لتحقيق تعلم شامل. مستوحاة من الطبيعة المكملة بين هاتين النوعيتين، ازداد الاهتمام بتصميم نماذج هجينة للاستفادة الأمثل من كل تقنية. ومع ذلك، فإن النماذج الهجينة الحالية تقتصر على استبدال التلافيف ببدائل بسيطة تشبه التحويل الخطي أو تُدمج فرعًا تلافيفيًا مع فرع انتباه، دون أخذ أهمية نمذجة السياق المحلي والعالمي بعين الاعتبار. ولحل هذه المشكلة، نقترح نموذجًا هجينًا جديدًا يُسمى "Transformer مُقسم-مُدمج تلقائيًا" (ASF-former)، الذي يعامل فرعين التلافيف والانتباه بشكل مختلف باستخدام أوزان تلقائية. بشكل محدد، يقوم مشفر ASF-former بتقسيم قنوات الميزات بالتساوي إلى نصفين لتلبية المدخلات ثنائية المسار. ثم يتم دمج مخرجات المسارين باستخدام عوامل وزن تُحسب من خلال مؤشرات بصرية. كما قمنا بتصميم المسار التلافيفي بشكل مكثف لتحسين الكفاءة. أظهرت تجارب واسعة على معايير قياسية مثل ImageNet-1K وCIFAR-10 وCIFAR-100 أن نموذجنا ASF-former يتفوق على نماذج CNN وTransformers والهياكل الهجينة السابقة من حيث الدقة (83.9% على ImageNet-1K)، ضمن ظروف مماثلة (12.9G MACs / 56.7M معلمات، دون الحاجة إلى التدريب المسبق على نطاق واسع). يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/szx503045266/ASF-former.