دراسة تجريبية لتدريب نماذج الرؤية المعتمدة على التعلم الذاتي من نوع Transformers

هذا المقال لا يصف طريقة جديدة، بل يدرس قاعدة بسيطة ومتدرجة، لكنها ضرورية المعرفة، بالنظر إلى التقدم الأخير في مجال رؤية الحاسوب: التعلم الذاتي للنماذج البصرية المبنية على التحويل (Vision Transformers (ViT. في حين أن وصفات التدريب للشبكات التلافيفية القياسية أصبحت ناضجة جدًا وقوية، فإن وصفات التدريب للنماذج ViT ما زالت قيد الإنشاء، خاصة في السياقات ذات التعلم الذاتي، حيث يصبح التدريب أكثر تعقيدًا. في هذا العمل، نعود إلى الأساسيات ونستعرض تأثير عدة عناصر جوهرية في تدريب نماذج ViT ذات التعلم الذاتي. نلاحظ أن عدم الاستقرار يمثل مشكلة رئيسية تؤدي إلى تراجع الدقة، ويمكن أن يُخفيه نتائج تبدو جيدة ظاهريًا. نكشف أن هذه النتائج في الحقيقة تمثل فشلًا جزئيًا، ويمكن تحسينها عند جعل عملية التدريب أكثر استقرارًا. نقوم بمقارنة أداء ViT في إطار MoCo v3 وأطر تعلم ذاتي أخرى، مع تحليلات مفصلة في جوانب مختلفة. ونناقش الأدلة الحالية الإيجابية، فضلًا عن التحديات والأسئلة المفتوحة. نأمل أن يوفر هذا العمل نقاط بيانات وتجارب مفيدة للبحث المستقبلي.