HyperAIHyperAI

Command Palette

Search for a command to run...

Swin Transformer V2: توسيع السعة والدقة

الملخص

أظهرت النماذج الكبيرة لمعالجة اللغة الطبيعية تحسينًا كبيرًا في الأداء على مهام اللغة دون أي علامات على التشبع. كما تُظهر قدرات مذهلة على التعلم من عدد قليل من الأمثلة، مشابهة لتلك التي يمتلكها البشر. يهدف هذا البحث إلى استكشاف النماذج الكبيرة في مجال الرؤية الحاسوبية. ونواجه ثلاث قضايا رئيسية في تدريب وتطبيق النماذج البصرية الكبيرة، تشمل عدم استقرار التدريب، والفجوة في الدقة بين مرحلة التدريب المسبق والتحسين الدقيق، واحتياجات البيانات المُسَمَّاة الكبيرة. ونُقدِّم ثلاث تقنيات رئيسية: 1) طريقة تُسمى "النظام المتبقي-بعد-التوحيد" (residual-post-norm) المُدمَجة مع الانتباه الجيبي (cosine attention) لتحسين استقرار التدريب؛ 2) طريقة جديدة تُعرف بـ "الانحياز المستمر المُتباعد لوغاريتميًا" (log-spaced continuous position bias) لتمكين نقل النماذج المُدرَّبة مسبقًا باستخدام صور من دقة منخفضة إلى المهام اللاحقة ذات المدخلات عالية الدقة بشكل فعّال؛ 3) طريقة تدريب مسبق ذاتيًا (self-supervised pre-training) تُسمى SimMIM لتقليل الحاجة إلى كميات ضخمة من الصور المُسَمَّاة. وباستخدام هذه التقنيات، نجحنا في تدريب نموذج Swin Transformer V2 بحجم 3 مليار معلمة، وهو أكبر نموذج بصري كثيف تم إنشاؤه حتى الآن، ويُمكنه التدريب على صور تصل دقتها إلى 1,536×1,536 بكسل. كما حقق هذا النموذج أرقامًا قياسية جديدة في أربع مهام بصرية ممثلة، تشمل تصنيف الصور في ImageNet-V2، والكشف عن الكائنات في COCO، والتقسيم الدلالي في ADE20K، وتصنيف الحركات في الفيديو في Kinetics-400. كما يُلاحظ أن عملية تدريبنا أكثر كفاءة بكثير مقارنةً بالنماذج البصرية ذات المليار معلمة من Google، حيث تُستهلك 40 مرة أقل من البيانات المُسَمَّاة و40 مرة أقل من وقت التدريب. يمكن الوصول إلى الكود من خلال الرابط التالي: \url{https://github.com/microsoft/Swin-Transformer}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Swin Transformer V2: توسيع السعة والدقة | مستندات | HyperAI