ViT-CoMer: نموذج محول البصري مع تفاعل الميزات متعددة المقياس باستخدام الت convolution لتنبؤات كثيفة

على الرغم من النجاح الكبير الذي حققه نموذج التحول البصري (ViT) في مجال الرؤية الحاسوبية، إلا أنه لا يُظهر أداءً جيدًا في المهام التي تتطلب التنبؤ الكثيف (dense prediction) بسبب نقص التفاعل الداخلي بين الشرائح (patches) وتنوع محدود في مقياس الميزات. تتركز معظم الدراسات الحالية على تصميم نماذج تحول بصرية مخصصة للرؤية بهدف معالجة هذه المشكلات، مما يؤدي إلى تكاليف إضافية في التدريب المسبق (pre-training). لذلك، نقدم نموذجًا بسيطًا، خالٍ من التدريب المسبق، ويعزز الميزات، يُسمى ViT-CoMer، والذي يعتمد على تفاعل متعدد المقياس باستخدام التحويلات التلافيفية (Convolutional Multi-scale feature interaction)، مما يُسهل التفاعل الثنائي الاتجاه بين الشبكات العصبية التلافيفية (CNN) والتحولات (Transformer). مقارنةً بأفضل النماذج الحالية، يتمتع ViT-CoMer بالمزايا التالية: (1) نُدمج ميزات تلافيفية ذات مجال استقبال متعدد (spatial pyramid multi-receptive field) في هيكل ViT، مما يُخفف بشكل فعّال من مشكلتي التفاعل المحدود للمعلومات المحلية وتمثيل الميزة الواحدة في ViT. (2) نقترح وحدة تكامل ثنائية الاتجاه بين CNN وTransformer، بسيطة وفعّالة، تقوم بدمج متعدد المقياس عبر الميزات الهرمية، مما يُسهم في تحسين الأداء في المهام التي تتطلب التنبؤ الكثيف. (3) قمنا بتقييم أداء ViT-CoMer في مجموعة متنوعة من المهام التنبؤية الكثيفة، وفي مختلف الإطارات المعمارية، وباستخدام عدة طرق تدريب مسبق متقدمة. وبشكل ملحوظ، حقق ViT-CoMer-L تقييمًا بنسبة 64.3% AP على مجموعة بيانات COCO val2017 دون الحاجة إلى بيانات تدريب إضافية، و62.1% mIoU على مجموعة ADE20K val، حيث تُعتبر هذه النتائج مماثلة لأفضل النماذج الحالية. نأمل أن يُصبح ViT-CoMer خلفية جديدة لمهام التنبؤ الكثيف، ويسهم في دفع عجلة الأبحاث المستقبلية. سيتم إصدار الشفرة المصدرية على الرابط: https://github.com/Traffic-X/ViT-CoMer.