HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات التعرف على المستندات olmOCR-mix-1025

التاريخ

منذ 13 ساعات

المؤسسة

معهد ألين للذكاء الاصطناعي

رابط الورقة البحثية

2502.18443

الترخيص

أخرى

انضم إلى مجتمع Discord

olmOCR-mix-1025 عبارة عن مجموعة بيانات OCR عالية الجودة وواسعة النطاق لمستندات PDF أصدرها معهد ألين للذكاء الاصطناعي في عام 2025. عنوان الورقة البحثية ذات الصلة هو "olmOCR: فتح تريليونات الرموز في ملفات PDF باستخدام نماذج لغة الرؤيةيهدف النظام إلى دعم تدريب وضبط وتقييم نماذج التعرف الضوئي على الحروف (OCR)، ونماذج فهم المستندات، والنماذج الكبيرة متعددة الوسائط.

تحتوي هذه المجموعة على ما يقارب 270,250 صفحة من مستندات PDF، منها 267,962 صفحة في مجموعة التدريب و2,288 صفحة في مجموعة التقييم. تغطي هذه المجموعة أنواعًا متنوعة من المستندات، بما في ذلك الأوراق الأكاديمية، والوثائق الأرشيفية، ونصوص الكتب الممسوحة ضوئيًا، والمخطوطات التاريخية. كل مجموعة فرعية هي في الغالب باللغة الإنجليزية، بنسبة إجمالية تتراوح بين 91% و99%، وتتضمن أيضًا عددًا صغيرًا من المستندات باللغات الإسبانية، والفرنسية، والألمانية، والإيطالية، واللاتينية، والإندونيسية.

توزيع مجموعة البيانات

  • 00_documents (الوثائق العامة): 232,790 صفحة في المجموع (231,668 جلسة تدريبية / 1,122 جلسة تقييم)، مع توزيع اللغة التالي: الإنجليزية 94.46%، الإسبانية 0.58%، الفرنسية 0.46%، الإندونيسية 0.45%، والألمانية 0.42%.
  • 01_كتب (كتب ووثائق): 17,474 صفحة في المجموع (16,575 تدريب / 899 تقييم)، مع توزيع اللغة التالي: الإنجليزية 91.28%، الفرنسية 0.54%، اللاتينية 0.31%، الألمانية 0.27%، والهندية 0.12%.
  • 02_loc_transcripts (السجلات الكونجرسية/نصوص الخطابات): 9,989 صفحة إجماليًا (9,891 للتدريب / 98 للتقييم)، مع توزيع اللغة التالي: الإنجليزية 98.21%، الإسبانية 0.59%، الفرنسية 0.46%، الألمانية 0.45%، والإيطالية 0.11%.
  • 03_national_archives: 9,997 صفحة في المجموع (9,828 تدريبًا / 169 تقييمًا)، مع توزيع اللغة التالي: الإنجليزية 99.82%، الإسبانية 0.12%، الفرنسية 0.02%، السويدية 0.01%، والألمانية 0.01%.

مقارنةً بالإصدار السابق olmOCR-mix-0225، يُحسّن olmOCR-mix-1025 جودة التعليقات التوضيحية وتغطية المستندات. يستخدم هذا الإصدار GPT-4.1 واستراتيجية مُحسّنة للتوجيه لتوليد التعرف الضوئي على الحروف (OCR)، مما يجعل ترتيب قراءة النص أكثر اتساقًا مع التصميم الأصلي ويحافظ على بنية المحتوى الرقمي. في الوقت نفسه، تم توحيد الصيغ الرياضية في مجموعة البيانات، وعرض الجداول بتنسيق HTML، وإضافة نص بديل أساسي للصور. علاوة على ذلك، أُضيفت نماذج من الكتب والأرشيفات والمستندات المكتوبة بخط اليد، مما يجعله أكثر ملاءمة لتدريب النماذج بشكل متين في السيناريوهات المستندة إلى المستندات.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp