HyperAIHyperAI

Command Palette

Search for a command to run...

gSwin: نموذج رؤية MLP مُدار ببنية هرمية للنافذة المنزاحة

Mocho Go Hideyuki Tachibana

الملخص

بعد النجاح في مجال اللغة، تم اعتماد آلية الانتباه الذاتي (Transformer) في مجال الرؤية الحاسوبية، وقد حققت نجاحًا كبيرًا مؤخرًا. وبالإضافة إلى ذلك، كمجال آخر، تم استكشاف شبكة المعالجة المتعددة الطبقات (MLP) أيضًا في مجال الرؤية. وقد لاقت هذه المعمارية، بخلاف الشبكات العصبية التلافيفية التقليدية (CNN)، اهتمامًا متزايدًا مؤخرًا، مما أدى إلى اقتراح العديد من الأساليب. وباعتبارها طريقة تجمع بين الكفاءة في عدد المعاملات والأداء العالي، مع الحفاظ على الخصائص المحلية والهيكلية في التعرف على الصور، نقترح نموذج gSwin، الذي يدمج بين الطريقتين: Swin Transformer وgMLP (متعدد الرؤوس). وأظهرنا أن نموذج gSwin يمكنه تحقيق دقة أعلى في ثلاث مهام رؤية، وهي تصنيف الصور، وكشف الكائنات، والتقسيم الدلالي، مقارنةً بنموذج Swin Transformer، مع حجم نموذج أصغر.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
gSwin: نموذج رؤية MLP مُدار ببنية هرمية للنافذة المنزاحة | مستندات | HyperAI