DetCLIPv2: تدريب مسبق للكشف عن الكائنات ذات المفردات المفتوحة قابل للتوسع من خلال التماثل بين الكلمة والمنطقة

تقدم هذه الورقة منهجية DetCLIPv2، وهي إطار تدريب فعّال وقابل للتوسع، يعتمد على أزواج صور ونصوص على نطاق واسع لتحقيق الكشف عن الكائنات بفترة مفتوحة (OVD). على عكس الإطارات السابقة للكشف عن الكائنات بفترة مفتوحة التي تعتمد عادةً على نموذج رؤية-لغة مُدرّب مسبقًا (مثل CLIP) أو تستغل أزواج الصور والنصوص من خلال عملية تسمية وهمية، فإن DetCLIPv2 تتعلم مباشرةً التوافيق الدقيقة بين الكلمات والمناطق من خلال كميات هائلة من أزواج الصور والنصوص بطريقة متكاملة من البداية إلى النهاية. لتحقيق ذلك، نستخدم أقصى تشابه بين المنطقة المقترحة والكلمة النصية لتوجيه الهدف التبايني. ولتمكين النموذج من اكتساب القدرة على التحديد المكاني أثناء تعلّمه للمفاهيم الواسعة، يتم تدريب DetCLIPv2 باستخدام إشراف مختلط يشمل بيانات الكشف، التموضع، وأزواج الصور والنصوص ضمن صيغة بيانات موحدة. وباستخدام خطة تدريب متزامنة مع استخدام إدخالات منخفضة الدقة لأزواج الصور والنصوص، تُستخدم بيانات أزواج الصور والنصوص بكفاءة وفعالية في DetCLIPv2: حيث تستخدم DetCLIPv2 13 مرة أكثر من DetCLIP من أزواج الصور والنصوص مع وقت تدريب مشابه، وتحسّن الأداء بشكل ملحوظ. وباستخدام 13 مليون زوج صورة-نص في التدريب المسبق، تُظهر DetCLIPv2 أداءً متفوقًا في الكشف عن الكائنات بفترة مفتوحة، حيث حقق نموذج DetCLIPv2 باستخدام هيكل Swin-T 40.4% من AP بدون تدريب (zero-shot AP) على معيار LVIS، متفوّقًا على الدراسات السابقة مثل GLIP/GLIPv2/DetCLIP بنسبة 14.4/11.4/4.5% من AP على التوالي، وحتى تفوق نموذجها المُدرّب بالكامل (fully-supervised) بفارق كبير.