التدريب المُدرَك للمنطقة للكشف عن الأشياء ذات المفردات المفتوحة باستخدام متحولات الرؤية

نقدم متحولات الرؤية المعرفة بالمنطقة والمعجم المفتوح (Region-aware Open-vocabulary Vision Transformers - RO-ViT)، وهي وصفة تدريب مقارن للصورة والنص لجسر الفجوة بين التدريب على مستوى الصورة واكتشاف الأشياء بمعجم مفتوح. في مرحلة التدريب الأولي، نقترح قص وإعادة تغيير حجم مناطق تمثيلات الموقع بشكل عشوائي بدلاً من استخدام تمثيلات الموقع للصورة بأكملها. هذا يتناسب بشكل أفضل مع استخدام تمثيلات الموقع على مستوى المنطقة في مرحلة تعديل الاكتشاف. بالإضافة إلى ذلك، نستبدل خسارة التقاطع الانتروبي الشائعة في التعلم المقارن بخسارة التركيز (focal loss) لتعلم الأمثل لل أمثلة المعلوماتية ولكن الصعبة. أخيرًا، نستفيد من التطورات الحديثة في اقتراحات الأشياء الجديدة لتحسين تعديل الاكتشاف بمعجم مفتوح. نقيم نموذجنا الكامل على مقاييس الاكتشاف بمعجم مفتوح LVIS و COCO وعلى النقل بدون تصوير (zero-shot transfer). يحقق RO-ViT أحدث ما وصلت إليه التقنية بمقدار 34.1 $AP_r$ على LVIS، مما يتفوق على أفضل النهج الموجودة بمقدار +7.8 نقطة بالإضافة إلى تحقيقه لأداء تنافسي في النقل بدون تصوير لاكتشاف الأشياء. وبشكل مفاجئ، يحسن RO-ViT أيضًا تمثيل مستوى الصورة ويحقق أحدث ما وصلت إليه التقنية في 9 من أصل 12 مقياسًا على مقاييس استرجاع الصور والنصوص COCO وFlickr، مما يجعله يتفوق على النماذج التنافسية ذات الحجم الأكبر.