
نظام التحويل البصري (Vision Transformer (ViT)) هو بنية عصبية بسيطة يمكن استخدامها لأداء عدة مهام في الرؤية الحاسوبية. يمتلك هذا النظام قيودًا محدودة فيما يتعلق بالبدائل المدمجة في البنية المعمارية، على عكس الهياكل الحديثة التي تدمج بدائل متعلقة ببيانات الإدخال أو بمهام محددة. تُظهر الدراسات الحديثة أن نماذج ViT تستفيد بشكل كبير من التدريب الذاتي المسبق، وخاصةً التدريب من نوع Bert مثل BeiT. في هذا البحث، نعيد النظر في عملية التدريب المراقبة لـ ViT. تعتمد إجراءاتنا على وصفة تم تقديمها سابقًا لتدريب نموذج ResNet-50، مع تبسيطها. وتشمل الوصفة إجراء جديدًا بسيطًا للتعديل على البيانات، يتضمن فقط ثلاث عمليات تعديل، وهو أقرب إلى الممارسة المستخدمة في التدريب الذاتي المسبق. تُظهر تقييماتنا في تصنيف الصور (ImageNet-1k مع وبدون التدريب المسبق على ImageNet-21k)، والتعلم الانتقالي، والترميز الدلالي (semantic segmentation) أن إجراءاتنا تتفوق بشكل كبير على الوصفات السابقة للتدريب الكامل المراقب لنموذج ViT. كما تُظهر النتائج أن أداء نموذج ViT المدرب بالطريقة المراقبة يُقارن بأداء الهياكل الحديثة الأخرى. يمكن أن تُستخدم هذه النتائج كأساس أفضل (baselines) للدراسات الحديثة التي تُظهر نتائج التدريب الذاتي المسبق على نماذج ViT.