HyperAIHyperAI
منذ 17 أيام

ConvMLP: مُحَوِّلات مُتَقَشِّرة مُتَنَوِّعة لرؤية الحاسوب

Jiachen Li, Ali Hassani, Steven Walton, Humphrey Shi
ConvMLP: مُحَوِّلات مُتَقَشِّرة مُتَنَوِّعة لرؤية الحاسوب
الملخص

تم مؤخرًا اكتشاف أن المعمارية القائمة على الشبكات العصبية متعددة الطبقات (MLP)، والتي تتكون من سلسلة من كتل MLP متعددة الطبقات متتالية، تحقق نتائج مماثلة للطرق القائمة على التحويلات (convolutional) والطرق القائمة على المُحَوِّل (transformer). ومع ذلك، فإن معظم هذه المعماريّات تعتمد على MLPs المكانية (spatial MLPs) التي تتطلب إدخالات بحجم ثابت، مما يجعل من الصعب تطبيقها على المهام اللاحقة مثل كشف الكائنات والتقسيم الدلالي. علاوةً على ذلك، فإن التصميمات أحادية المرحلة تحد من الأداء في مهام الرؤية الحاسوبية الأخرى، كما أن الطبقات المتصلة بالكامل (fully connected layers) تتطلب حسابات مكثفة. ولحل هذه المشكلات، نقترح ConvMLP: شبكة MLP تسلسلية قائم على التحويلات (Hierarchical Convolutional MLP) للتمييز البصري، وهي معمارية خفيفة الوزن ومتعددة المراحل، تم تصميمها بشكل متكامل بين طبقات التحويلات (convolution layers) وMLPs. وبشكل خاص، حققت النسخة ConvMLP-S دقة قدرها 76.8% في معيار top-1 على مجموعة بيانات ImageNet-1k باستخدام 9 ملايين معلمة و2.4 غيغابايت من العمليات الحسابية (MACs)، أي ما يعادل 15% و19% على التوالي من المعلمات وعدد العمليات الحسابية في MLP-Mixer-B/16. وتشير التجارب على كشف الكائنات والتقسيم الدلالي إلى أن التمثيل البصري المُكتسب عبر ConvMLP يمكن نقله بسلاسة إلى مهام أخرى، ويحقق نتائج تنافسية باستخدام عدد أقل من المعلمات. يُمكن الوصول إلى الكود المصدري والنموذج المُدرّب مسبقًا عبر الرابط التالي: https://github.com/SHI-Labs/Convolutional-MLPs.

ConvMLP: مُحَوِّلات مُتَقَشِّرة مُتَنَوِّعة لرؤية الحاسوب | أحدث الأوراق البحثية | HyperAI