HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف على الكيانات البصرية في المجال المفتوح: نحو التعرف على ملايين كيانات ويكيبيديا

Hexiang Hu Yi Luan Yang Chen Urvashi Khandelwal Mandar Joshi Kenton Lee Kristina Toutanova Ming-Wei Chang

الملخص

تظهر نماذج التدريب المتعدد الأوضاع على نطاق واسع مثل CLIP و PaLI قدرة تعميم قوية في مجالات ومهام بصرية متنوعة. ومع ذلك، فإن مقاييس تصنيف الصور الحالية غالبًا ما تقوم بتقييم الاعتراف في مجال محدد (مثل صور خارجية) أو مهمة محددة (مثل تصنيف أنواع النباتات)، مما يفتقر إلى تقييم ما إذا كانت النماذج الأساسية المدربة مسبقاً هي معترفات بصرية عامة. لمعالجة هذا، نقدم رسمياً مهمة الاعتراف بالكيانات البصرية في المجال المفتوح (OVEN)، حيث يجب على النموذج ربط الصورة بكيان من ويكيبيديا بناءً على استعلام نصي. نقوم ببناء OVEN-Wiki بإعادة استخدام 14 مجموعة بيانات موجودة مع وضع جميع العلامات في فضاء علامات واحد: كيانات ويكيبيديا. تحدي OVEN للنماذج هو اختيار أحد ستة ملايين كيان محتمل من ويكيبيديا، مما يجعله مقاساً عامًا للاعتراف البصري يحتوي على أكبر عدد من العلامات. دراستنا حول أحدث النماذج المدربة مسبقًا تكشف عن هامش كبير للتعميم إلى فضاء العلامات الضخم. نوضح أن نموذج الاعتراف البصري التلقائي القائم على PaLI يؤدي بشكل مفاجئ جيد، حتى بالنسبة للكيانات التي لم يتم رؤيتها خلال التعديل الدقيق. كما وجدنا أن النماذج المدربة مسبقًا الحالية لديها نقاط قوة مختلفة: بينما تحصل النماذج القائمة على PaLI على أداء أعلى بشكل عام، تكون النماذج القائمة على CLIP أفضل في اعتراف الكيانات الثانوية (tail entities).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp