منذ 17 أيام

Swin Transformer V2: توسيع السعة والدقة

Ze Liu, Han Hu, Yutong Lin, Zhuliang Yao, Zhenda Xie, Yixuan Wei, Jia Ning, Yue Cao, Zheng Zhang, Li Dong, Furu Wei, Baining Guo

عرض تفاصيل الورقة البحثية

الملخص

أظهرت النماذج الكبيرة لمعالجة اللغة الطبيعية تحسينًا كبيرًا في الأداء على مهام اللغة دون أي علامات على التشبع. كما تُظهر قدرات مذهلة على التعلم من عدد قليل من الأمثلة، مشابهة لتلك التي يمتلكها البشر. يهدف هذا البحث إلى استكشاف النماذج الكبيرة في مجال الرؤية الحاسوبية. ونواجه ثلاث قضايا رئيسية في تدريب وتطبيق النماذج البصرية الكبيرة، تشمل عدم استقرار التدريب، والفجوة في الدقة بين مرحلة التدريب المسبق والتحسين الدقيق، واحتياجات البيانات المُسَمَّاة الكبيرة. ونُقدِّم ثلاث تقنيات رئيسية: 1) طريقة تُسمى "النظام المتبقي-بعد-التوحيد" (residual-post-norm) المُدمَجة مع الانتباه الجيبي (cosine attention) لتحسين استقرار التدريب؛ 2) طريقة جديدة تُعرف بـ "الانحياز المستمر المُتباعد لوغاريتميًا" (log-spaced continuous position bias) لتمكين نقل النماذج المُدرَّبة مسبقًا باستخدام صور من دقة منخفضة إلى المهام اللاحقة ذات المدخلات عالية الدقة بشكل فعّال؛ 3) طريقة تدريب مسبق ذاتيًا (self-supervised pre-training) تُسمى SimMIM لتقليل الحاجة إلى كميات ضخمة من الصور المُسَمَّاة. وباستخدام هذه التقنيات، نجحنا في تدريب نموذج Swin Transformer V2 بحجم 3 مليار معلمة، وهو أكبر نموذج بصري كثيف تم إنشاؤه حتى الآن، ويُمكنه التدريب على صور تصل دقتها إلى 1,536×1,536 بكسل. كما حقق هذا النموذج أرقامًا قياسية جديدة في أربع مهام بصرية ممثلة، تشمل تصنيف الصور في ImageNet-V2، والكشف عن الكائنات في COCO، والتقسيم الدلالي في ADE20K، وتصنيف الحركات في الفيديو في Kinetics-400. كما يُلاحظ أن عملية تدريبنا أكثر كفاءة بكثير مقارنةً بالنماذج البصرية ذات المليار معلمة من Google، حيث تُستهلك 40 مرة أقل من البيانات المُسَمَّاة و40 مرة أقل من وقت التدريب. يمكن الوصول إلى الكود من خلال الرابط التالي: \url{https://github.com/microsoft/Swin-Transformer}.