HyperAIHyperAI
منذ 11 أيام

LP-OVOD: الكشف عن الكائنات ذي مجال مفتوح من خلال التحقيق الخطي

Chau Pham, Truong Vu, Khoi Nguyen
LP-OVOD: الكشف عن الكائنات ذي مجال مفتوح من خلال التحقيق الخطي
الملخص

يتناول هذا البحث المشكلة الصعبة للكشف عن الكائنات في بيئة مفتوحة (OVOD)، حيث يجب على كاشف الكائنات تحديد كل من الفئات المرئية وغير المرئية في الصور المُختبرة دون وجود أمثلة مُعلَّمة للفئات غير المرئية أثناء التدريب. إحدى الطرق الشائعة لمعالجة OVOD هي استخدام التضمينات المشتركة بين النص والصورة من نموذج CLIP لربط اقتراحات الصندوق بـ"الملصق النصي" الأقرب إليها. ومع ذلك، يواجه هذا الأسلوب مشكلة جوهرية: فكثير من صناديق الجودة المنخفضة، مثل الصناديق التي تغطي الكائن بشكل مفرط أو غير كافٍ، تمتلك نفس درجة التشابه مع الصناديق عالية الجودة، نظرًا لأن نموذج CLIP لم يُدرَّس على معلومات دقيقة حول مواقع الكائنات. لحل هذه المشكلة، نقترح طريقة جديدة تُسمى LP-OVOD، والتي تُلغي الصناديق منخفضة الجودة من خلال تدريب فاصل خطي من النوع سigmoid على تسميات وهمية (Pseudo labels) تم استرجاعها من أفضل المقترحات الإقليمية ذات الصلة بالنص الجديد. أظهرت النتائج التجريبية على مجموعة بيانات COCO تفوق أداء منهجنا على أفضل الطرق الحالية، حيث حقق $\textbf{40.5}$ في مقياس $\text{AP}_{novel}$ باستخدام معمارية ResNet50 كأساس، دون الحاجة إلى مجموعات بيانات خارجية أو معرفة الفئات الجديدة أثناء التدريب. ستُتاح كودنا عبر الرابط التالي: https://github.com/VinAIResearch/LP-OVOD.

LP-OVOD: الكشف عن الكائنات ذي مجال مفتوح من خلال التحقيق الخطي | أحدث الأوراق البحثية | HyperAI