HyperAIHyperAI

Command Palette

Search for a command to run...

التدريب المُدرَك للمنطقة للكشف عن الأشياء ذات المفردات المفتوحة باستخدام متحولات الرؤية

Dahun Kim; Anelia Angelova; Weicheng Kuo

الملخص

نقدم متحولات الرؤية المعرفة بالمنطقة والمعجم المفتوح (Region-aware Open-vocabulary Vision Transformers - RO-ViT)، وهي وصفة تدريب مقارن للصورة والنص لجسر الفجوة بين التدريب على مستوى الصورة واكتشاف الأشياء بمعجم مفتوح. في مرحلة التدريب الأولي، نقترح قص وإعادة تغيير حجم مناطق تمثيلات الموقع بشكل عشوائي بدلاً من استخدام تمثيلات الموقع للصورة بأكملها. هذا يتناسب بشكل أفضل مع استخدام تمثيلات الموقع على مستوى المنطقة في مرحلة تعديل الاكتشاف. بالإضافة إلى ذلك، نستبدل خسارة التقاطع الانتروبي الشائعة في التعلم المقارن بخسارة التركيز (focal loss) لتعلم الأمثل لل أمثلة المعلوماتية ولكن الصعبة. أخيرًا، نستفيد من التطورات الحديثة في اقتراحات الأشياء الجديدة لتحسين تعديل الاكتشاف بمعجم مفتوح. نقيم نموذجنا الكامل على مقاييس الاكتشاف بمعجم مفتوح LVIS و COCO وعلى النقل بدون تصوير (zero-shot transfer). يحقق RO-ViT أحدث ما وصلت إليه التقنية بمقدار 34.1 APrAP_rAPr على LVIS، مما يتفوق على أفضل النهج الموجودة بمقدار +7.8 نقطة بالإضافة إلى تحقيقه لأداء تنافسي في النقل بدون تصوير لاكتشاف الأشياء. وبشكل مفاجئ، يحسن RO-ViT أيضًا تمثيل مستوى الصورة ويحقق أحدث ما وصلت إليه التقنية في 9 من أصل 12 مقياسًا على مقاييس استرجاع الصور والنصوص COCO وFlickr، مما يجعله يتفوق على النماذج التنافسية ذات الحجم الأكبر.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp