مُرَتِّب: LSTM العميقة للتصنيف الصوري

في البحوث الحديثة في مجال الرؤية الحاسوبية، أحدث ظهور نموذج التحويل البصري (Vision Transformer - ViT) ثورة سريعة في جهود إعادة تصميم الهياكل المعمارية: حيث حقق ViT أداءً متقدمًا في تصنيف الصور باستخدام آلية الانتباه الذاتي التي ظهرت في معالجة اللغة الطبيعية، في حين حقق نموذج MLP-Mixer أداءً تنافسيًا باستخدام شبكة عصبية متعددة الطبقات بسيطة. على النقيض من ذلك، أشارت عدة دراسات إلى أن إعادة تصميم دقيق لشبكات التعلم التلافيفي (CNNs) يمكن أن تحقق أداءً متقدمًا مقارنًا بـ ViT دون الاعتماد على هذه الأفكار الجديدة. وفي هذا السياق، تزداد الاهتمامات بتحديد ما هو التحيز الاستنتاجي المناسب لرؤية الحاسوب. ولهذا نقترح "Sequencer"، وهي بنية مبتكرة وتنافسية بديلة لـ ViT، تقدم منظورًا جديدًا لمعالجة هذه القضايا. على عكس ViT، يستخدم Sequencer خوارزميات LSTM لتمثيل الاعتماديات الطويلة المدى بدلًا من استخدام طبقات الانتباه الذاتي. كما نقترح نسخة ثنائية الأبعاد من وحدة Sequencer، حيث يتم تحليل LSTM إلى LSTM عمودية وLSTM أفقية لتعزيز الأداء. وعلى الرغم من بساطة هيكلها، تُظهر عدة تجارب أن Sequencer يؤدي بأداء مبهر: حيث حقق نموذج Sequencer2D-L، الذي يحتوي على 54 مليون معلمة، دقة تبلغ 84.6% في التصنيف الأولي على مجموعة بيانات ImageNet-1K فقط. ولا يقتصر الأمر على ذلك، بل نُظهر أيضًا أن النموذج يتمتع بقدرة نقل جيدة، وبقدرة عالية على التكيف مع التغيرات في الدقة، حتى عند التضاعف في الدقة.