التعرف على الكيانات البصرية في المجال المفتوح: نحو التعرف على ملايين كيانات ويكيبيديا

تظهر نماذج التدريب المتعدد الأوضاع على نطاق واسع مثل CLIP و PaLI قدرة تعميم قوية في مجالات ومهام بصرية متنوعة. ومع ذلك، فإن مقاييس تصنيف الصور الحالية غالبًا ما تقوم بتقييم الاعتراف في مجال محدد (مثل صور خارجية) أو مهمة محددة (مثل تصنيف أنواع النباتات)، مما يفتقر إلى تقييم ما إذا كانت النماذج الأساسية المدربة مسبقاً هي معترفات بصرية عامة. لمعالجة هذا، نقدم رسمياً مهمة الاعتراف بالكيانات البصرية في المجال المفتوح (OVEN)، حيث يجب على النموذج ربط الصورة بكيان من ويكيبيديا بناءً على استعلام نصي. نقوم ببناء OVEN-Wiki بإعادة استخدام 14 مجموعة بيانات موجودة مع وضع جميع العلامات في فضاء علامات واحد: كيانات ويكيبيديا. تحدي OVEN للنماذج هو اختيار أحد ستة ملايين كيان محتمل من ويكيبيديا، مما يجعله مقاساً عامًا للاعتراف البصري يحتوي على أكبر عدد من العلامات. دراستنا حول أحدث النماذج المدربة مسبقًا تكشف عن هامش كبير للتعميم إلى فضاء العلامات الضخم. نوضح أن نموذج الاعتراف البصري التلقائي القائم على PaLI يؤدي بشكل مفاجئ جيد، حتى بالنسبة للكيانات التي لم يتم رؤيتها خلال التعديل الدقيق. كما وجدنا أن النماذج المدربة مسبقًا الحالية لديها نقاط قوة مختلفة: بينما تحصل النماذج القائمة على PaLI على أداء أعلى بشكل عام، تكون النماذج القائمة على CLIP أفضل في اعتراف الكيانات الثانوية (tail entities).