دراسة شاملة نماذج Torchvision المُدرَّبة مسبقًا لتصنيف عالي الدقة بين الأنواع المختلفة

تهدف هذه الدراسة إلى استكشاف النماذج المُدرَّبة مسبقًا المختلفة المتوفرة في حزمة Torchvision التي تُقدَّم ضمن مكتبة PyTorch، ودراسة فعاليتها في تصنيف الصور ذات التفاصيل الدقيقة. يُعد التعلم الناقل (Transfer Learning) طريقة فعّالة لتحقيق أداء ممتاز جدًا مع كمية محدودة من البيانات التدريبية. في العديد من الحالات الواقعية، يصعب على الأشخاص جمع كمية كافية من البيانات المطلوبة لتدريب نموذج شبكة عصبية عميقة بكفاءة. إذ تُدرَّب نماذج التعلم الناقل مسبقًا على مجموعات بيانات كبيرة، ويمكنها تحقيق أداءً جيدًا على مجموعات بيانات أصغر، مع تقليل كبير في وقت التدريب. تُقدِّم حزمة Torchvision العديد من النماذج التي تُمكِّن الباحثين من تطبيق التعلم الناقل على مجموعات بيانات صغيرة. لذا، قد يحتاج الباحثون إلى دليل توجيهي لاختيار نموذج مناسب. وقد قمنا بدراسة النماذج المُدرَّبة مسبقًا في Torchvision على أربع مجموعات بيانات مختلفة: 10 أنواع من الرئيسيات، و225 نوعًا من الطيور، وFruits 360، وOxford 102 Flowers. تتميز هذه المجموعات بتنوع في دقة الصور، وعدد الفئات، والدقة القصوى الممكنة. كما قمنا بتطبيق الطبقة الكاملة المتصلة التقليدية والطبقة الكاملة المتصلة من نوع Spinal (Spinal fully-connected layer) لدراسة فعالية نموذج SpinalNet. وقد أظهرت النتائج أن الطبقة الكاملة المتصلة من نوع Spinal تحقق أداءً أفضل في معظم الحالات. وتم تطبيق نفس تقنيات التحويل (augmentation) على النماذج المختلفة لنفس مجموعة البيانات لضمان مقارنة عادلة. تُعد هذه الورقة مرجعًا مفيدًا للباحثين في مجال الرؤية الحاسوبية في المستقبل، من أجل اختيار نموذج مناسب للتعلم الناقل.