HyperAIHyperAI

Command Palette

Search for a command to run...

مُعدّل التحويلة البصرية للتنبؤات الكثيفة

Zhe Chen Yuchen Duan Wenhai Wang Junjun He Tong Lu Jifeng Dai Yu Qiao

الملخص

تُجري هذه الدراسة تحقيقًا في مُعدِّل مُهمّة تنبؤ كثيف بسيط لكنه قوي لنموذج Vision Transformer (ViT). على عكس النماذج المتقدمة حديثًا التي تُدمج في هندستها افتراضات تمهيدية مخصصة للرؤية، يعاني ViT الأساسي من أداء ضعيف في المهام الكثيفة ناتجًا عن افتراضات أولية ضعيفة. لمعالجة هذه المشكلة، نقترح ViT-Adapter، الذي يسمح لنموذج ViT الأساسي بالوصول إلى أداء مماثل للنماذج المخصصة للرؤية. بشكل خاص، يُعدُّ النموذج الأساسي في إطارنا هو ViT الأساسي الذي يمكنه تعلُّم تمثيلات قوية من بيانات متعددة الوسائط بحجم كبير. عند نقل النموذج إلى المهام التالية، يُستخدم مُعدِّل خالٍ من التدريب المسبق لإدخال افتراضات تمهيدية مرتبطة بالصور إلى النموذج، مما يجعله مناسبًا لهذه المهام. وقد تحققنا من أداء ViT-Adapter في عدة مهام تنبؤ كثيف، بما في ذلك الكشف عن الكائنات، والتقسيم التوافقي، والتقسيم الدلالي. وبشكل مميز، وبلا استخدام بيانات كشف إضافية، حقق ViT-Adapter-L أداءً يُعدّ الأفضل في مجاله بـ 60.9 نقطة AP للصناديق و53.0 نقطة AP للأقنعة على مجموعة بيانات COCO test-dev. نأمل أن يُصبح ViT-Adapter بديلًا ممكنًا للنماذج المخصصة للرؤية، ويساهم في تعزيز الأبحاث المستقبلية. سيتم إصدار الشفرة والنماذج على الرابط: https://github.com/czczup/ViT-Adapter.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp