ResMLP: شبكات تغذية أمامية لتصنيف الصور مع تدريب فعّال من حيث استخدام البيانات

نقدّم نموذج ResMLP، وهو معمارية مبنية بالكامل على الشبكات العصبية المتعددة الطبقات (multi-layer perceptrons) لتصنيف الصور. يُعدّ هذا النموذج شبكة تلافُّية بسيطة تتناوب بين (أ) طبقة خطية تسمح للقطع الصورية بالتفاعل بشكل مستقل ومتماثل عبر القنوات، و(ب) شبكة تغذية أمامية مكونة من طبقتين تسمح للقنوات بالتفاعل بشكل مستقل لكل قطعة صورية. وباستخدام استراتيجية تدريب حديثة تعتمد على تكبير البيانات بشكل مكثف، مع إمكانية استخدام التحويم (distillation) اختيارياً، يحقق النموذج أداءً مبهرًا من حيث التوازن بين الدقة والتعقيد على مجموعة بيانات ImageNet. كما قمنا بتدريب نماذج ResMLP في بيئة تعلم ذاتي (self-supervised)، بهدف إزالة الافتراضات السابقة الناتجة عن الاعتماد على بيانات مصنفة مسبقاً. وأخيراً، وبتعديل النموذج لتطبيقات ترجمة الآلة، تحقق نتائج مبهرة بشكل غير متوقع. نوفر نماذجًا مُدرّبة مسبقًا، بالإضافة إلى رمز البرمجة الخاص بنا، مبنيًا على مكتبة Timm.