HyperAIHyperAI

Command Palette

Search for a command to run...

اختبار الأداء النموذجية البصرية-اللغوية في التعرف على الرموز البصرية في بيئات الفيديو الديناميكية

Sankalp Nagaonkar Augustya Sharma Ashish Choithani Ashutosh Trivedi

الملخص

تُقدّم هذه الورقة بenchmark مفتوح المصدر لتقييم نماذج الرؤية واللغة (VLMs) في مهام استخراج النص البصري (OCR) ضمن بيئات الفيديو الديناميكية. ونقدّم مجموعة بيانات مختارة تحتوي على 1,477 إطارًا تم تسميتها يدويًا، وتغطي مجالات متنوعة تشمل محررات الشفرة، وبرامج البث الإخباري، ومقاطع الفيديو على يوتيوب، والإعلانات. تم تقييم ثلاث نماذج حديثة من نوع VLMs، وهي كلاود-3 وغيميني-1.5 وGPT-4o، مقابل أنظمة OCR التقليدية مثل EasyOCR وRapidOCR. وتتضمن مقاييس التقييم معدل الخطأ الكلمي (WER) ومعدل الخطأ الحرفية (CER) والدقة. تُظهر النتائج نقاط القوة والقيود الخاصة بنماذج VLMs في مهام استخراج النص من الفيديو، وتكشف عن إمكانية تفوقها على نماذج OCR التقليدية في العديد من السيناريوهات. ومع ذلك، تبقى التحديات المتعلقة بالوهم البصري، وسياسات أمن المحتوى، وحساسية النماذج تجاه النصوص المُغطاة أو ذات التصميمات الفنية. وتم إتاحة مجموعة البيانات وإطار التقييم للجمهور لتشجيع الأبحاث المستقبلية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp