إعادة التفكير في الشبكات العصبية التكرارية وتحسينات أخرى لتصنيف الصور

على مدار التاريخ الطويل للتعلم الآلي، الذي يعود إلى عقود عديدة، تم استخدام الشبكات العصبية التكرارية (RNNs) بشكل رئيسي للبيانات التسلسلية والسلاسل الزمنية، وبشكل عام باستخدام معلومات ذات بعد واحد (1D). وحتى في بعض الدراسات النادرة المتعلقة بالصور ثنائية الأبعاد (2D)، لم تُستخدم هذه الشبكات سوى لتعلم البيانات وإنشائها تسلسليًا، وليس لأغراض التعرف على الصور. في هذه الدراسة، نقترح دمج شبكة عصبية تكرارية كطبقة إضافية عند تصميم نماذج التعرف على الصور. كما نطور تجميعات متعددة النماذج تعمل من النهاية إلى النهاية (end-to-end)، وتُنتج تنبؤات خبراء باستخدام عدة نماذج. بالإضافة إلى ذلك، نوسع استراتيجية التدريب بحيث تُظهر نماذجنا أداءً يُنافس النماذج الرائدة، بل وقد تتفوق عليها في بعض المجموعات الصعبة (مثل SVHN (0.99)، Cifar-100 (0.9027)، وCifar-10 (0.9852)). علاوة على ذلك، سجّلت نماذجنا رقماً قياسياً جديداً على مجموعة بيانات Surrey (0.949). يمكن الوصول إلى الشفرة المصدرية للطرق المقدمة في هذه الدراسة من خلال الرابطين التاليين: https://github.com/leonlha/e2e-3m وhttp://nguyenhuuphong.me.