التحويلات البصرية في عام 2022: تحديث حول Tiny ImageNet

أظهرت التطورات الحديثة في نماذج التحويل الصوري (image transformers) نتائج مبهرة، وأغلقت إلى حد كبير الفجوة بين الهياكل التقليدية المبنية على الشبكات العصبية التلافيفية (CNN). وعادةً ما يتبع الأسلوب القياسي تدريب النموذج على مجموعات بيانات كبيرة مثل ImageNet-21k، ثم تحسينه الدقيق (finetuning) على ImageNet-1k. وبعد عملية التحسين الدقيق، يُعدّ من الشائع أن يُقيّم الباحثون أداء التعلم المنقول (transfer learning) على مجموعات بيانات أصغر مثل CIFAR-10/100، لكنهم غالبًا ما يتجاهلون Tiny ImageNet. يقدم هذا البحث تحديثًا لأداء النماذج التحويلية في مجال الرؤية على Tiny ImageNet، حيث يشمل نماذج: Vision Transformer (ViT)، وData Efficient Image Transformer (DeiT)، وClass Attention in Image Transformer (CaiT)، وSwin Transformers. بالإضافة إلى ذلك، تتفوق نموذج Swin Transformers على أحدث النتائج المُسجَّلة حتى الآن، بتحقيق دقة تحقق (validation accuracy) بلغت 91.35%. يمكن الاطلاع على الكود المصدر من خلال الرابط التالي: https://github.com/ehuynh1106/TinyImageNet-Transformers