اختبار الأداء النموذجية البصرية-اللغوية في التعرف على الرموز البصرية في بيئات الفيديو الديناميكية

تُقدّم هذه الورقة بenchmark مفتوح المصدر لتقييم نماذج الرؤية واللغة (VLMs) في مهام استخراج النص البصري (OCR) ضمن بيئات الفيديو الديناميكية. ونقدّم مجموعة بيانات مختارة تحتوي على 1,477 إطارًا تم تسميتها يدويًا، وتغطي مجالات متنوعة تشمل محررات الشفرة، وبرامج البث الإخباري، ومقاطع الفيديو على يوتيوب، والإعلانات. تم تقييم ثلاث نماذج حديثة من نوع VLMs، وهي كلاود-3 وغيميني-1.5 وGPT-4o، مقابل أنظمة OCR التقليدية مثل EasyOCR وRapidOCR. وتتضمن مقاييس التقييم معدل الخطأ الكلمي (WER) ومعدل الخطأ الحرفية (CER) والدقة. تُظهر النتائج نقاط القوة والقيود الخاصة بنماذج VLMs في مهام استخراج النص من الفيديو، وتكشف عن إمكانية تفوقها على نماذج OCR التقليدية في العديد من السيناريوهات. ومع ذلك، تبقى التحديات المتعلقة بالوهم البصري، وسياسات أمن المحتوى، وحساسية النماذج تجاه النصوص المُغطاة أو ذات التصميمات الفنية. وتم إتاحة مجموعة البيانات وإطار التقييم للجمهور لتشجيع الأبحاث المستقبلية.