HyperAIHyperAI
منذ 7 أيام

مُعدّل التحويلة البصرية للتنبؤات الكثيفة

Zhe Chen, Yuchen Duan, Wenhai Wang, Junjun He, Tong Lu, Jifeng Dai, Yu Qiao
مُعدّل التحويلة البصرية للتنبؤات الكثيفة
الملخص

تُجري هذه الدراسة تحقيقًا في مُعدِّل مُهمّة تنبؤ كثيف بسيط لكنه قوي لنموذج Vision Transformer (ViT). على عكس النماذج المتقدمة حديثًا التي تُدمج في هندستها افتراضات تمهيدية مخصصة للرؤية، يعاني ViT الأساسي من أداء ضعيف في المهام الكثيفة ناتجًا عن افتراضات أولية ضعيفة. لمعالجة هذه المشكلة، نقترح ViT-Adapter، الذي يسمح لنموذج ViT الأساسي بالوصول إلى أداء مماثل للنماذج المخصصة للرؤية. بشكل خاص، يُعدُّ النموذج الأساسي في إطارنا هو ViT الأساسي الذي يمكنه تعلُّم تمثيلات قوية من بيانات متعددة الوسائط بحجم كبير. عند نقل النموذج إلى المهام التالية، يُستخدم مُعدِّل خالٍ من التدريب المسبق لإدخال افتراضات تمهيدية مرتبطة بالصور إلى النموذج، مما يجعله مناسبًا لهذه المهام. وقد تحققنا من أداء ViT-Adapter في عدة مهام تنبؤ كثيف، بما في ذلك الكشف عن الكائنات، والتقسيم التوافقي، والتقسيم الدلالي. وبشكل مميز، وبلا استخدام بيانات كشف إضافية، حقق ViT-Adapter-L أداءً يُعدّ الأفضل في مجاله بـ 60.9 نقطة AP للصناديق و53.0 نقطة AP للأقنعة على مجموعة بيانات COCO test-dev. نأمل أن يُصبح ViT-Adapter بديلًا ممكنًا للنماذج المخصصة للرؤية، ويساهم في تعزيز الأبحاث المستقبلية. سيتم إصدار الشفرة والنماذج على الرابط: https://github.com/czczup/ViT-Adapter.

مُعدّل التحويلة البصرية للتنبؤات الكثيفة | أحدث الأوراق البحثية | HyperAI