HyperAIHyperAI
منذ 2 أشهر

VLCounter: تمثيل بصري واعٍ للنص لعد الأشياء دون تدريب مسبق

Kang, Seunggu ; Moon, WonJun ; Kim, Euiyeon ; Heo, Jae-Pil
VLCounter: تمثيل بصري واعٍ للنص لعد الأشياء دون تدريب مسبق
الملخص

يهدف عد الأشياء بدون تعلم مسبق (ZSOC) إلى عد حالات مشار إليها من فئات عشوائية في صورة استعلام دون أمثلة مشمولة بتصنيف البشر. لمعالجة ZSOC، اقترح الدراسات السابقة خطوتين: اكتشاف الأمثلة وعدّها. ومع ذلك، لا يزال هناك تحدي يتمثل في ضعف مقاومة الخطأ للعملية ثنائية المراحل المصممة بشكل متسلسل. في هذا العمل، تم اقتراح نموذج أساسي ذو مرحلة واحدة، وهو النموذج البصري-اللغوي الأساسي (VLBase)، يستكشف الارتباط الضمني لمتجهات الشظايا الدلالية لـ CLIP. بعد ذلك، تم تحقيق توسيع VLBase إلى العداد البصري-اللغوي (VLCounter) من خلال دمج ثلاثة وحدات مصممة لتكييف VLBase لعد الأشياء. أولاً، تم تقديم تعديل الدعوة المشروط بالمعنى (SPT) داخل كودر الصورة للحصول على تمثيلات مميزة للأهداف. ثانياً، تم استخدام التحويل المرتبط القابل للتعلم (LAT) لترجمة خريطة تشابه الشظايا الدلالية بحيث تكون مناسبة للمهمة العددية. وأخيراً، يتم نقل الخصائص المشفرة طبقة بطبقة إلى الكودر عبر الاتصال الفاصل المدرك للقطع (SaSC) للحفاظ على قدرة التعميم للأصناف غير المعروفة. أظهرت التجارب الواسعة التي أجريت على FSC147 وCARPK وPUCPR+ فوائد الإطار الشامل من نقطة بداية إلى نهاية، VLCounter.

VLCounter: تمثيل بصري واعٍ للنص لعد الأشياء دون تدريب مسبق | أحدث الأوراق البحثية | HyperAI