HyperAIHyperAI
منذ 2 أشهر

تتدفق DeiT-LT: التدريب على مجموعات البيانات ذات الذيل الطويل لـ Vision Transformer

Harsh Rangwani; Pradipto Mondal; Mayank Mishra; Ashish Ramayee Asokan; R. Venkatesh Babu
تتدفق DeiT-LT: التدريب على مجموعات البيانات ذات الذيل الطويل لـ Vision Transformer
الملخص

ظهرت معمارية Vision Transformer (ViT) كإحدى الأطر المهمة لمهام الرؤية الحاسوبية المختلفة. في ViT، نقسم الصورة الإدخال إلى رموز الباتش (patch tokens) ونعالجها عبر تراكم كتل الانتباه الذاتي (self attention blocks). ومع ذلك، على عكس الشبكات العصبية التلافيفية (CNN)، فإن هيكل ViT البسيط لا يحتوي على تحيز استقرائي مفيد (مثل التوضع المحلي وما إلى ذلك). نتيجة لذلك، يتطلب ViT كمية كبيرة من البيانات للتدريب الأولي. تم اقتراح العديد من الأساليب الفعالة في استخدام البيانات (مثل DeiT) لتدريب ViT بشكل فعال على مجموعات بيانات متوازنة. ومع ذلك، فإن الأدبيات المحدودة فقط تناقش استخدام ViT لمجموعات البيانات ذات الاختلال الطويل الذيل (long-tailed imbalances).في هذا العمل، نقدم DeiT-LT لمعالجة مشكلة تدريب ViTs من الصفر على مجموعات البيانات ذات الاختلال الطويل الذيل. في DeiT-LT، نقترح طريقة فعالة ومجدية للتدريس من CNN عبر رمز التدريس DIST باستخدام صور خارج التوزيع وإعادة وزن خسارة التدريس لتعزيز التركيز على الفئات ذيلية. هذا يؤدي إلى تعلم الخصائص المحلية المشابهة لـ CNN في الكتل المبكرة من ViT، مما يحسن التعميم للفئات ذيلية. بالإضافة إلى ذلك، للتخفيف من الإفراط في التكيف (overfitting)، نقترح التدريس من معلم CNN مستوٍ، مما يؤدي إلى تعلم خصائص قابلة للتعميم بمرتبة منخفضة لرموز DIST عبر جميع كتل ViT.بتطبيق نظام DeiT-LT المقترح، يصبح رمز التدريس DIST خبيرًا على الفئات ذيلية، بينما يصبح رمز تصنيف CLS خبيرًا على الفئات الرئيسية. يساعد الخبراء في تعلم الخصائص المرتبطة بالفئات الرئيسية والثانوية بكفاءة باستخدام مجموعة متميزة من الرموز ضمن نفس هيكل ViT. نوضح فعالية DeiT-LT في تدريب ViT من الصفر على مجموعات بيانات تتراوح بين CIFAR-10 LT الصغيرة الحجم وiNaturalist-2018 الكبيرة الحجم.