PVT v2: تحسين القواعد الأساسية باستخدام محول الرؤية الهرمي

أظهرت نموذج Transformer تقدماً ملحوظاً في مجال الرؤية الحاسوبية مؤخراً. في هذا العمل، نقدّم قواعد معيارية جديدة من خلال تحسين النموذج الأصلي Pyramid Vision Transformer (PVT v1) من خلال إدخال ثلاث تصميمات جديدة، تشمل: (1) طبقة انتباه ذات تعقيد خطي، (2) تضمين شرائح متداخلة، و(3) شبكة تغذية تنازلية باستخدام التحويلات التلافيفية. وباستخدام هذه التعديلات، تمكّن PVT v2 من تقليل التعقيد الحسابي لنموذج PVT v1 إلى المستوى الخطي، وتحقيق تحسينات كبيرة في المهام الأساسية للرؤية الحاسوبية مثل التصنيف، والكشف، والتقسيم. وبشكل ملحوظ، تحقق PVT v2 أداءً مماثلاً أو أفضل من أعمال حديثة مثل Swin Transformer. نأمل أن يسهم هذا العمل في تعزيز الأبحاث المتطورة في مجال نماذج Transformer ضمن مجال الرؤية الحاسوبية. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/whai362/PVT.