HyperAIHyperAI

Command Palette

Search for a command to run...

CLIM: مosaic لغوي صوري تناقضي لتمثيل المنطقة

Size Wu Wenwei Zhang Lumin Xu Sheng Jin Wentao Liu Chen Change Loy

الملخص

لكشف الكائنات بدقة من مفردات كبيرة أو مفتوحة يتطلب توجيهًا بين الرؤية واللغة في تمثيلات المناطق. ومع ذلك، فإن تعلّم هذا التوجيه بين المناطق والنصوص يتطلب الحصول على تسميات صندوقية عالية الجودة مصحوبة بنصوص أو وصفات، وهو ما يُعد مكلفًا وغير عملي. في المقابل، جمع أزواج الصور والنصوص أسهل، لكنه يفتقر إلى معلومات موقع الكائن الدقيقة التي تمكن من ربط المناطق بالنصوص. في هذا البحث، نقترح منهجية جديدة تُسمى "موزاييك اللغة والصورة التباينية" (CLIM)، والتي تستفيد بشكل فعّال من أزواج الصور والنصوص على نطاق واسع لتوحيد تمثيلات المناطق والنصوص. يقوم CLIM بدمج عدة صور في صورة موزاييك واحدة، ويُعامل كل صورة كـ "منطقة افتراضية". ثم يتم استخراج السمة لكل منطقة افتراضية، وتدريبها لتكون مشابهة لتمثيل النص المقابل لها، ومتباينة عن سمات النصوص الأخرى باستخدام خسارة تباينية، مما يمكّن النموذج من تعلّم التوجيه بين المنطقة والنص دون الحاجة إلى تسميات صندوقية مكلفة. وباعتباره منهجية قابلة للتطبيق بشكل عام، يُحسّن CLIM باستمرار أساليب مختلفة للكشف عن الكائنات ذات المفردات المفتوحة التي تعتمد على الإشراف بالوصف. علاوةً على ذلك، يمكن لـ CLIM تحسين تمثيلات المناطق في النماذج الرؤية-اللغة بشكل فعّال، مما يوفر هيكلًا قويًا أكثر للنماذج الكاشفة للكائنات ذات المفردات المفتوحة. تُظهر النتائج التجريبية أن CLIM يُحسّن النماذج الأساسية للكشف عن الكائنات ذات المفردات المفتوحة بشكل كبير على معايير OV-COCO وOV-LVIS. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/wusize/CLIM.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp