HyperAIHyperAI
منذ 17 أيام

تَحْوِيلُ الرُّمُوزِ المَكَانِيَّةِ-القَنَاتِيَّةِ لِنُمُوذِجِ الـMLP البَصَرِيَّةِ

{Chang Xu, Yunhe Wang, Yehui Tang, Minjing Dong, Xinghao Chen, Yanxi Li}
تَحْوِيلُ الرُّمُوزِ المَكَانِيَّةِ-القَنَاتِيَّةِ لِنُمُوذِجِ الـMLP البَصَرِيَّةِ
الملخص

في الآونة الأخيرة، اجتذبت المعمارية العصبية المبنية بالكامل على الوحدات المتعددة الطبقات (MLPs) اهتمامًا كبيرًا من مجتمع رؤية الحاسوب. ومع ذلك، فإن الخلط غير الفعّال للمعلومات المكانية والقناة يؤدي إلى الحاجة إلى تدريب مسبق واسع النطاق على مجموعات بيانات ضخمة بالنسبة للنماذج البصرية المشابهة لـ MLP. تحل هذه الدراسة المشكلة من منظور جديد للانتقال المعرفي. نحن نقترح طريقة جديدة تُسمى "الانتقال المعرفي للرموز المكانية-القناة" (STD)، التي تحسّن خلط المعلومات في البعدين المكاني والقناة من خلال إدخال رموز انتقالية لكل منهما. كما تم إدخال ت régularization مبني على المعلومات المتبادلة لجعل رموز الانتقال تركز على بعديها المحددين وتحقيق أقصى قدر ممكن من تحسين الأداء. أظهرت تجارب واسعة النطاق على مجموعة بيانات ImageNet بالنسبة لعدة هياكل مشابهة لـ MLP أن آلية الانتقال المعرفي للرموز المقترحة يمكنها تحسين الدقة بشكل فعّال. على سبيل المثال، يُحسّن الـ STD المقترح دقة الصورة الأولى (top-1) لنموذج Mixer-S16 على ImageNet من 73.8% إلى 75.7% دون الحاجة إلى أي تدريب مسبق مكلف على مجموعة JFT-300M. عند تطبيقه على هياكل أقوى، مثل CycleMLP-B1 وCycleMLP-B2، يحقق الـ STD مكاسب في الدقة تبلغ حوالي 1.1% و0.5% على التوالي.