كشف الكائنات بعبارة مفتوحة باستخدام استخراج الاقتراحات وموازنة التنبؤ

يهدف الكشف عن الكائنات ذي القاموس المفتوح (OVD) إلى توسيع حجم القاموس للكشف عن كائنات تابعة لفئات جديدة تتجاوز القاموس التدريبي. ولجأ العمل الأخير إلى المعرفة الغنية المتوفرة في نماذج الرؤية واللغة المُدرَّبة مسبقًا. ومع ذلك، فإن الطرق الحالية تُظهر فعالية محدودة في التوافيق بين الرؤية واللغة على مستوى الاقتراحات. علاوةً على ذلك، تعاني النماذج عادةً من انحياز في الثقة تجاه الفئات الأساسية، وتؤدي أداءً أضعف في الفئات الجديدة. ول superar هذه التحديات، نقدم MEDet، وهي إطار جديد وفعال للكشف عن الكائنات ذي القاموس المفتوح، يعتمد على استخراج الاقتراحات وموازنة التنبؤات. أولاً، صممنا آلية استخراج اقتراحات في الوقت الفعلي لتحسين المعرفة البصرية-الدلالية المُورَّثة من المستوى الخشن إلى الدقيق، مما يمكّن من التوافيق الموجهة للكشف على مستوى الاقتراحات. ثانيًا، استنادًا إلى نظرية الاستدلال السببي، نقدّم تعديلًا مُتَقَنَّصًا حسب الفئة لتعزيز التنبؤات بالنسبة للفئات الجديدة، بهدف تحسين الأداء العام للكشف عن الكائنات ذي القاموس المفتوح. وتوّفر التجارب الواسعة على معايير COCO وLVIS تفوق MEDet على الطرق المنافسة في الكشف عن كائنات فئات جديدة، مثل 32.6% AP50 على COCO و22.4% mask mAP على LVIS.