منذ 6 أشهر

الملخص

على الرغم من النجاح الكبير الذي حققه نموذج التحول البصري (ViT) في مجال الرؤية الحاسوبية، إلا أنه لا يُظهر أداءً جيدًا في المهام التي تتطلب التنبؤ الكثيف (dense prediction) بسبب نقص التفاعل الداخلي بين الشرائح (patches) وتنوع محدود في مقياس الميزات. تتركز معظم الدراسات الحالية على تصميم نماذج تحول بصرية مخصصة للرؤية بهدف معالجة هذه المشكلات، مما يؤدي إلى تكاليف إضافية في التدريب المسبق (pre-training). لذلك، نقدم نموذجًا بسيطًا، خالٍ من التدريب المسبق، ويعزز الميزات، يُسمى ViT-CoMer، والذي يعتمد على تفاعل متعدد المقياس باستخدام التحويلات التلافيفية (Convolutional Multi-scale feature interaction)، مما يُسهل التفاعل الثنائي الاتجاه بين الشبكات العصبية التلافيفية (CNN) والتحولات (Transformer). مقارنةً بأفضل النماذج الحالية، يتمتع ViT-CoMer بالمزايا التالية: (1) نُدمج ميزات تلافيفية ذات مجال استقبال متعدد (spatial pyramid multi-receptive field) في هيكل ViT، مما يُخفف بشكل فعّال من مشكلتي التفاعل المحدود للمعلومات المحلية وتمثيل الميزة الواحدة في ViT. (2) نقترح وحدة تكامل ثنائية الاتجاه بين CNN وTransformer، بسيطة وفعّالة، تقوم بدمج متعدد المقياس عبر الميزات الهرمية، مما يُسهم في تحسين الأداء في المهام التي تتطلب التنبؤ الكثيف. (3) قمنا بتقييم أداء ViT-CoMer في مجموعة متنوعة من المهام التنبؤية الكثيفة، وفي مختلف الإطارات المعمارية، وباستخدام عدة طرق تدريب مسبق متقدمة. وبشكل ملحوظ، حقق ViT-CoMer-L تقييمًا بنسبة 64.3% AP على مجموعة بيانات COCO val2017 دون الحاجة إلى بيانات تدريب إضافية، و62.1% mIoU على مجموعة ADE20K val، حيث تُعتبر هذه النتائج مماثلة لأفضل النماذج الحالية. نأمل أن يُصبح ViT-CoMer خلفية جديدة لمهام التنبؤ الكثيف، ويسهم في دفع عجلة الأبحاث المستقبلية. سيتم إصدار الشفرة المصدرية على الرابط: https://github.com/Traffic-X/ViT-CoMer.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Yifeng Shi† Xin Hao∗ Feng Lv∗ Xinliang Wang∗ Chunlong Xia*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yifeng Shi† Xin Hao∗ Feng Lv∗ Xinliang Wang∗ Chunlong Xia*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yifeng Shi† Xin Hao∗ Feng Lv∗ Xinliang Wang∗ Chunlong Xia*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ViT-CoMer: نموذج محول البصري مع تفاعل الميزات متعددة المقياس باستخدام الت convolution لتنبؤات كثيفة

Yifeng Shi† Xin Hao∗ Feng Lv∗ Xinliang Wang∗ Chunlong Xia*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ViT-CoMer: نموذج محول البصري مع تفاعل الميزات متعددة المقياس باستخدام الت convolution لتنبؤات كثيفة

Yifeng Shi† Xin Hao∗ Feng Lv∗ Xinliang Wang∗ Chunlong Xia*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ViT-CoMer: نموذج محول البصري مع تفاعل الميزات متعددة المقياس باستخدام الت convolution لتنبؤات كثيفة

Yifeng Shi† Xin Hao∗ Feng Lv∗ Xinliang Wang∗ Chunlong Xia*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters