HyperAIHyperAI

Command Palette

Search for a command to run...

VLCounter: تمثيل بصري واعٍ للنص لعد الأشياء دون تدريب مسبق

Seunggu Kang WonJun Moon Euiyeon Kim Jae-Pil Heo *

الملخص

يهدف عد الأشياء بدون تعلم مسبق (ZSOC) إلى عد حالات مشار إليها من فئات عشوائية في صورة استعلام دون أمثلة مشمولة بتصنيف البشر. لمعالجة ZSOC، اقترح الدراسات السابقة خطوتين: اكتشاف الأمثلة وعدّها. ومع ذلك، لا يزال هناك تحدي يتمثل في ضعف مقاومة الخطأ للعملية ثنائية المراحل المصممة بشكل متسلسل. في هذا العمل، تم اقتراح نموذج أساسي ذو مرحلة واحدة، وهو النموذج البصري-اللغوي الأساسي (VLBase)، يستكشف الارتباط الضمني لمتجهات الشظايا الدلالية لـ CLIP. بعد ذلك، تم تحقيق توسيع VLBase إلى العداد البصري-اللغوي (VLCounter) من خلال دمج ثلاثة وحدات مصممة لتكييف VLBase لعد الأشياء. أولاً، تم تقديم تعديل الدعوة المشروط بالمعنى (SPT) داخل كودر الصورة للحصول على تمثيلات مميزة للأهداف. ثانياً، تم استخدام التحويل المرتبط القابل للتعلم (LAT) لترجمة خريطة تشابه الشظايا الدلالية بحيث تكون مناسبة للمهمة العددية. وأخيراً، يتم نقل الخصائص المشفرة طبقة بطبقة إلى الكودر عبر الاتصال الفاصل المدرك للقطع (SaSC) للحفاظ على قدرة التعميم للأصناف غير المعروفة. أظهرت التجارب الواسعة التي أجريت على FSC147 وCARPK وPUCPR+ فوائد الإطار الشامل من نقطة بداية إلى نهاية، VLCounter.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp