منذ 8 أشهر

الملخص

نقدم متحولات الرؤية المعرفة بالمنطقة والمعجم المفتوح (Region-aware Open-vocabulary Vision Transformers - RO-ViT)، وهي وصفة تدريب مقارن للصورة والنص لجسر الفجوة بين التدريب على مستوى الصورة واكتشاف الأشياء بمعجم مفتوح. في مرحلة التدريب الأولي، نقترح قص وإعادة تغيير حجم مناطق تمثيلات الموقع بشكل عشوائي بدلاً من استخدام تمثيلات الموقع للصورة بأكملها. هذا يتناسب بشكل أفضل مع استخدام تمثيلات الموقع على مستوى المنطقة في مرحلة تعديل الاكتشاف. بالإضافة إلى ذلك، نستبدل خسارة التقاطع الانتروبي الشائعة في التعلم المقارن بخسارة التركيز (focal loss) لتعلم الأمثل لل أمثلة المعلوماتية ولكن الصعبة. أخيرًا، نستفيد من التطورات الحديثة في اقتراحات الأشياء الجديدة لتحسين تعديل الاكتشاف بمعجم مفتوح. نقيم نموذجنا الكامل على مقاييس الاكتشاف بمعجم مفتوح LVIS و COCO وعلى النقل بدون تصوير (zero-shot transfer). يحقق RO-ViT أحدث ما وصلت إليه التقنية بمقدار 34.1 $AP_r$ على LVIS، مما يتفوق على أفضل النهج الموجودة بمقدار +7.8 نقطة بالإضافة إلى تحقيقه لأداء تنافسي في النقل بدون تصوير لاكتشاف الأشياء. وبشكل مفاجئ، يحسن RO-ViT أيضًا تمثيل مستوى الصورة ويحقق أحدث ما وصلت إليه التقنية في 9 من أصل 12 مقياسًا على مقاييس استرجاع الصور والنصوص COCO وFlickr، مما يجعله يتفوق على النماذج التنافسية ذات الحجم الأكبر.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Dahun Kim; Anelia Angelova; Weicheng Kuo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Dahun Kim; Anelia Angelova; Weicheng Kuo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Dahun Kim; Anelia Angelova; Weicheng Kuo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التدريب المُدرَك للمنطقة للكشف عن الأشياء ذات المفردات المفتوحة باستخدام متحولات الرؤية

Dahun Kim; Anelia Angelova; Weicheng Kuo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التدريب المُدرَك للمنطقة للكشف عن الأشياء ذات المفردات المفتوحة باستخدام متحولات الرؤية

Dahun Kim; Anelia Angelova; Weicheng Kuo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التدريب المُدرَك للمنطقة للكشف عن الأشياء ذات المفردات المفتوحة باستخدام متحولات الرؤية

Dahun Kim; Anelia Angelova; Weicheng Kuo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters