HyperAIHyperAI

Command Palette

Search for a command to run...

CvT: إدخال التحولات إلى نماذج الرؤية المستندة إلى المحولات

Haiping Wu Bin Xiao Noel Codella Mengchen Liu Xiyang Dai Lu Yuan Lei Zhang

الملخص

في هذه الورقة، نقدم معمارية جديدة تُسمى "Transformer البصري التبادلي" (CvT)، التي تُحسّن أداء وفعالية Transformer البصري (ViT) من خلال دمج العمليات التبادلية (convolutions) في ViT، مما يجمع بين أفضل ما في كلا التصميمين. يتم تحقيق ذلك من خلال تعديلين رئيسيين: هرمية من Transformers تحتوي على تضمين رموز تبادلية جديدة، ووحدة Transformer تبادلية تستخدم تمريرًا تبادليًا. تُضفي هذه التغييرات خصائص مرغوبة من الشبكات العصبية التبادلية (CNNs) على بنية ViT (مثل التحويل، التمدد، والثبات تجاه التشوهات)، مع الحفاظ على مزايا Transformers (مثل الانتباه الديناميكي، والاتصال العالمي، والتعميم الأفضل). ونُثبت أداء CvT من خلال إجراء تجارب واسعة النطاق، حيث تُظهر هذه الطريقة أداءً من الدرجة الأولى مقارنة بـ ViTs الأخرى وResNets على مجموعة بيانات ImageNet-1k، مع عدد أقل من المعاملات (parameters) وعدد أقل من العمليات الحسابية (FLOPs). كما تُحافظ هذه المكاسب على الأداء عند التدريب المسبق على مجموعات بيانات أكبر (مثل ImageNet-22k) ثم التخصيص الدقيق للمهام التالية. وباستخدام التدريب المسبق على ImageNet-22k، حقق نموذج CvT-W24 دقة أعلى بنسبة 87.7% على مجموعة التحقق من ImageNet-1k. وأخيرًا، تُظهر نتائجنا أن الترميز المكاني، المكون الحيوي في الـ Vision Transformers الحالية، يمكن إزالته بأمان في نموذجنا، مما يبسط التصميم ويجعله أكثر ملاءمة للمهام البصرية ذات الدقة العالية. سيتم إصدار الشفرة المصدرية على الرابط: \url{https://github.com/leoxiaobin/CvT}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
CvT: إدخال التحولات إلى نماذج الرؤية المستندة إلى المحولات | مستندات | HyperAI