منذ 6 أشهر

الملخص

لكشف الكائنات بدقة من مفردات كبيرة أو مفتوحة يتطلب توجيهًا بين الرؤية واللغة في تمثيلات المناطق. ومع ذلك، فإن تعلّم هذا التوجيه بين المناطق والنصوص يتطلب الحصول على تسميات صندوقية عالية الجودة مصحوبة بنصوص أو وصفات، وهو ما يُعد مكلفًا وغير عملي. في المقابل، جمع أزواج الصور والنصوص أسهل، لكنه يفتقر إلى معلومات موقع الكائن الدقيقة التي تمكن من ربط المناطق بالنصوص. في هذا البحث، نقترح منهجية جديدة تُسمى "موزاييك اللغة والصورة التباينية" (CLIM)، والتي تستفيد بشكل فعّال من أزواج الصور والنصوص على نطاق واسع لتوحيد تمثيلات المناطق والنصوص. يقوم CLIM بدمج عدة صور في صورة موزاييك واحدة، ويُعامل كل صورة كـ "منطقة افتراضية". ثم يتم استخراج السمة لكل منطقة افتراضية، وتدريبها لتكون مشابهة لتمثيل النص المقابل لها، ومتباينة عن سمات النصوص الأخرى باستخدام خسارة تباينية، مما يمكّن النموذج من تعلّم التوجيه بين المنطقة والنص دون الحاجة إلى تسميات صندوقية مكلفة. وباعتباره منهجية قابلة للتطبيق بشكل عام، يُحسّن CLIM باستمرار أساليب مختلفة للكشف عن الكائنات ذات المفردات المفتوحة التي تعتمد على الإشراف بالوصف. علاوةً على ذلك، يمكن لـ CLIM تحسين تمثيلات المناطق في النماذج الرؤية-اللغة بشكل فعّال، مما يوفر هيكلًا قويًا أكثر للنماذج الكاشفة للكائنات ذات المفردات المفتوحة. تُظهر النتائج التجريبية أن CLIM يُحسّن النماذج الأساسية للكشف عن الكائنات ذات المفردات المفتوحة بشكل كبير على معايير OV-COCO وOV-LVIS. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/wusize/CLIM.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Size Wu Wenwei Zhang Lumin Xu Sheng Jin Wentao Liu Chen Change Loy

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Size Wu Wenwei Zhang Lumin Xu Sheng Jin Wentao Liu Chen Change Loy

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Size Wu Wenwei Zhang Lumin Xu Sheng Jin Wentao Liu Chen Change Loy

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

CLIM: مosaic لغوي صوري تناقضي لتمثيل المنطقة

Size Wu Wenwei Zhang Lumin Xu Sheng Jin Wentao Liu Chen Change Loy

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

CLIM: مosaic لغوي صوري تناقضي لتمثيل المنطقة

Size Wu Wenwei Zhang Lumin Xu Sheng Jin Wentao Liu Chen Change Loy

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

CLIM: مosaic لغوي صوري تناقضي لتمثيل المنطقة

Size Wu Wenwei Zhang Lumin Xu Sheng Jin Wentao Liu Chen Change Loy

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters