مُحَوِّل الرؤية الهرمية: هيكل أساسي متعدد الاستخدامات للتنبؤ الكثيف دون استخدام التحويلات التلافيفية

على الرغم من أن استخدام الشبكات العصبية التلافيفية (CNNs) كأعمدة خلفية قد حقق نجاحات كبيرة في رؤية الحاسوب، فإن هذه الدراسة تُجري دراسة على شبكة خلفية بسيطة مفيدة لمهام التنبؤ الكثيف العديدة دون استخدام التلافيف. على عكس نموذج التحويل (Transformer) الذي تم اقتراحه حديثًا (مثل ViT) والذي صُمّم خصيصًا للتصنيف الصوتي، نقترح نموذج التحويل الهرمي (Pyramid Vision Transformer – PVT)، الذي يتجاوز الصعوبات المرتبطة بنقل نموذج التحويل إلى مهام التنبؤ الكثيف المتنوعة. يتميز PVT بعدة مزايا مقارنة بالأساليب السابقة: (1) على عكس ViT الذي يمتلك عادةً مخرجات ذات دقة منخفضة وتكاليف حسابية وذاكرة عالية، يمكن لـ PVT تدريبه على أجزاء كثيفة من الصورة لتحقيق دقة مخرجات عالية، وهي ميزة بالغة الأهمية للتنبؤات الكثيفة، كما يمكنه استخدام هرمٍ تنازلي متدرج لتقليل التكاليف الحسابية للخرائط الميّزة الكبيرة. (2) يرث PVT المزايا من كل من CNN وTransformer، مما يجعله عمودًا خلفيًا موحدًا لمهام بصرية متنوعة دون استخدام التلافيف، وذلك ببساطة عن طريق استبدال أعمدة CNN. (3) تم التحقق من أداء PVT من خلال إجراء تجارب واسعة النطاق، وأظهرت النتائج أنه يعزز أداء العديد من المهام التالية، مثل الكشف عن الكائنات، والتقسيم المعاني، والتقسيم الفردي. على سبيل المثال، وباستخدام عدد مماثل من المعاملات، حقق نموذج RetinaNet+PVT تقييمًا قدره 40.4 AP على مجموعة بيانات COCO، متفوقًا على RetinaNet+ResNet50 (36.3 AP) بمقدار 4.1 نقطة AP مطلقة. نأمل أن يصبح PVT بديلًا مفيدًا وعمودًا خلفيًا ملائمًا للتنبؤات على مستوى البكسل، ويساهم في دفع عجلة الأبحاث المستقبلية. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/whai362/PVT.