HyperAIHyperAI

Command Palette

Search for a command to run...

ViT-CoMer: نموذج محول البصري مع تفاعل الميزات متعددة المقياس باستخدام الت convolution لتنبؤات كثيفة

Yifeng Shi† Xin Hao∗ Feng Lv∗ Xinliang Wang∗ Chunlong Xia*

الملخص

على الرغم من النجاح الكبير الذي حققه نموذج التحول البصري (ViT) في مجال الرؤية الحاسوبية، إلا أنه لا يُظهر أداءً جيدًا في المهام التي تتطلب التنبؤ الكثيف (dense prediction) بسبب نقص التفاعل الداخلي بين الشرائح (patches) وتنوع محدود في مقياس الميزات. تتركز معظم الدراسات الحالية على تصميم نماذج تحول بصرية مخصصة للرؤية بهدف معالجة هذه المشكلات، مما يؤدي إلى تكاليف إضافية في التدريب المسبق (pre-training). لذلك، نقدم نموذجًا بسيطًا، خالٍ من التدريب المسبق، ويعزز الميزات، يُسمى ViT-CoMer، والذي يعتمد على تفاعل متعدد المقياس باستخدام التحويلات التلافيفية (Convolutional Multi-scale feature interaction)، مما يُسهل التفاعل الثنائي الاتجاه بين الشبكات العصبية التلافيفية (CNN) والتحولات (Transformer). مقارنةً بأفضل النماذج الحالية، يتمتع ViT-CoMer بالمزايا التالية: (1) نُدمج ميزات تلافيفية ذات مجال استقبال متعدد (spatial pyramid multi-receptive field) في هيكل ViT، مما يُخفف بشكل فعّال من مشكلتي التفاعل المحدود للمعلومات المحلية وتمثيل الميزة الواحدة في ViT. (2) نقترح وحدة تكامل ثنائية الاتجاه بين CNN وTransformer، بسيطة وفعّالة، تقوم بدمج متعدد المقياس عبر الميزات الهرمية، مما يُسهم في تحسين الأداء في المهام التي تتطلب التنبؤ الكثيف. (3) قمنا بتقييم أداء ViT-CoMer في مجموعة متنوعة من المهام التنبؤية الكثيفة، وفي مختلف الإطارات المعمارية، وباستخدام عدة طرق تدريب مسبق متقدمة. وبشكل ملحوظ، حقق ViT-CoMer-L تقييمًا بنسبة 64.3% AP على مجموعة بيانات COCO val2017 دون الحاجة إلى بيانات تدريب إضافية، و62.1% mIoU على مجموعة ADE20K val، حيث تُعتبر هذه النتائج مماثلة لأفضل النماذج الحالية. نأمل أن يُصبح ViT-CoMer خلفية جديدة لمهام التنبؤ الكثيف، ويسهم في دفع عجلة الأبحاث المستقبلية. سيتم إصدار الشفرة المصدرية على الرابط: https://github.com/Traffic-X/ViT-CoMer.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp