تَحْوِيلُ الرُّمُوزِ المَكَانِيَّةِ-القَنَاتِيَّةِ لِنُمُوذِجِ الـMLP البَصَرِيَّةِ

في الآونة الأخيرة، اجتذبت المعمارية العصبية المبنية بالكامل على الوحدات المتعددة الطبقات (MLPs) اهتمامًا كبيرًا من مجتمع رؤية الحاسوب. ومع ذلك، فإن الخلط غير الفعّال للمعلومات المكانية والقناة يؤدي إلى الحاجة إلى تدريب مسبق واسع النطاق على مجموعات بيانات ضخمة بالنسبة للنماذج البصرية المشابهة لـ MLP. تحل هذه الدراسة المشكلة من منظور جديد للانتقال المعرفي. نحن نقترح طريقة جديدة تُسمى "الانتقال المعرفي للرموز المكانية-القناة" (STD)، التي تحسّن خلط المعلومات في البعدين المكاني والقناة من خلال إدخال رموز انتقالية لكل منهما. كما تم إدخال ت régularization مبني على المعلومات المتبادلة لجعل رموز الانتقال تركز على بعديها المحددين وتحقيق أقصى قدر ممكن من تحسين الأداء. أظهرت تجارب واسعة النطاق على مجموعة بيانات ImageNet بالنسبة لعدة هياكل مشابهة لـ MLP أن آلية الانتقال المعرفي للرموز المقترحة يمكنها تحسين الدقة بشكل فعّال. على سبيل المثال، يُحسّن الـ STD المقترح دقة الصورة الأولى (top-1) لنموذج Mixer-S16 على ImageNet من 73.8% إلى 75.7% دون الحاجة إلى أي تدريب مسبق مكلف على مجموعة JFT-300M. عند تطبيقه على هياكل أقوى، مثل CycleMLP-B1 وCycleMLP-B2، يحقق الـ STD مكاسب في الدقة تبلغ حوالي 1.1% و0.5% على التوالي.