Command Palette
Search for a command to run...
OCRBench v2: معيار محسّن لتقييم النماذج المتعددة الأوضاع الكبيرة في تحديد موقع النص البصري والاستدلال

الملخص
لقد شهد تقييم قدرات التعرف على الحروف المطبوعة (OCR) في النماذج المتعددة الأوضاع الكبيرة (LMMs) اهتمامًا متزايدًا. وقد أظهرت المقاييس الحالية الأداء المتميز لهذه النماذج في التعرف على النصوص؛ ومع ذلك، فإن قدراتها في بعض المهام الصعبة، مثل تحديد موقع النصوص، واستخراج المحتوى اليدوي، والتفكير المنطقي، لا تزال غير مستكشفة بشكل كافٍ. لسد هذه الفجوة، نقدم OCRBench v2، وهو مقاييس كبير ومتنوع يركز على النصوص ثنائية اللغة ويحتوي حاليًا على مجموعة شاملة من المهام (4 مرات أكثر من المقاييس متعدد المشاهد السابقة OCRBench)، وغطاء واسع للمشاهد (31 مشهدًا متنوعًا)، ومعايير تقييم شاملة، مع 10,000 زوج سؤال-إجابة تم التحقق منها بواسطة البشر ونسبة عالية من العينات الصعبة. بالإضافة إلى ذلك، قمنا ببناء مجموعة اختبار خاصة تحتوي على 1,500 صورة تم تسميتها يدويًا. تؤكد الاتجاهات التقييمية المستقرة التي تم رصدها في كل من مجموعتي الاختبار العامة والخاصة موثوقية OCRBench v2. بعد تقييم دقيق للنماذج المتعددة الأوضاع الكبيرة الأكثر تقدمًا، وجدنا أن معظم هذه النماذج تحصل على درجات أقل من 50 (من إجمالي 100) وتواجه خمسة أنواع من القيود، بما في ذلك التعرف على النصوص القليلة الحدوث، والإدراك الدقيق جدًا، وإدراك التنسيق، وتحليل العناصر المعقدة، والتفكير المنطقي. يمكن الوصول إلى موقع المشروع عبر الرابط: https://99franklin.github.io/ocrbench_v2/
مستودعات الكود
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.