منذ 17 أيام

CvT: إدخال التحولات إلى نماذج الرؤية المستندة إلى المحولات

Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu, Xiyang Dai, Lu Yuan, Lei Zhang

الملخص

في هذه الورقة، نقدم معمارية جديدة تُسمى "Transformer البصري التبادلي" (CvT)، التي تُحسّن أداء وفعالية Transformer البصري (ViT) من خلال دمج العمليات التبادلية (convolutions) في ViT، مما يجمع بين أفضل ما في كلا التصميمين. يتم تحقيق ذلك من خلال تعديلين رئيسيين: هرمية من Transformers تحتوي على تضمين رموز تبادلية جديدة، ووحدة Transformer تبادلية تستخدم تمريرًا تبادليًا. تُضفي هذه التغييرات خصائص مرغوبة من الشبكات العصبية التبادلية (CNNs) على بنية ViT (مثل التحويل، التمدد، والثبات تجاه التشوهات)، مع الحفاظ على مزايا Transformers (مثل الانتباه الديناميكي، والاتصال العالمي، والتعميم الأفضل). ونُثبت أداء CvT من خلال إجراء تجارب واسعة النطاق، حيث تُظهر هذه الطريقة أداءً من الدرجة الأولى مقارنة بـ ViTs الأخرى وResNets على مجموعة بيانات ImageNet-1k، مع عدد أقل من المعاملات (parameters) وعدد أقل من العمليات الحسابية (FLOPs). كما تُحافظ هذه المكاسب على الأداء عند التدريب المسبق على مجموعات بيانات أكبر (مثل ImageNet-22k) ثم التخصيص الدقيق للمهام التالية. وباستخدام التدريب المسبق على ImageNet-22k، حقق نموذج CvT-W24 دقة أعلى بنسبة 87.7% على مجموعة التحقق من ImageNet-1k. وأخيرًا، تُظهر نتائجنا أن الترميز المكاني، المكون الحيوي في الـ Vision Transformers الحالية، يمكن إزالته بأمان في نموذجنا، مما يبسط التصميم ويجعله أكثر ملاءمة للمهام البصرية ذات الدقة العالية. سيتم إصدار الشفرة المصدرية على الرابط: \url{https://github.com/leoxiaobin/CvT}.