Command Palette
Search for a command to run...
مجموعة بيانات التعرف على المستندات olmOCR-mix-1025
التاريخ
رابط الورقة البحثية
الترخيص
أخرى
olmOCR-mix-1025 عبارة عن مجموعة بيانات OCR عالية الجودة وواسعة النطاق لمستندات PDF أصدرها معهد ألين للذكاء الاصطناعي في عام 2025. عنوان الورقة البحثية ذات الصلة هو "olmOCR: فتح تريليونات الرموز في ملفات PDF باستخدام نماذج لغة الرؤيةيهدف النظام إلى دعم تدريب وضبط وتقييم نماذج التعرف الضوئي على الحروف (OCR)، ونماذج فهم المستندات، والنماذج الكبيرة متعددة الوسائط.
تحتوي هذه المجموعة على ما يقارب 270,250 صفحة من مستندات PDF، منها 267,962 صفحة في مجموعة التدريب و2,288 صفحة في مجموعة التقييم. تغطي هذه المجموعة أنواعًا متنوعة من المستندات، بما في ذلك الأوراق الأكاديمية، والوثائق الأرشيفية، ونصوص الكتب الممسوحة ضوئيًا، والمخطوطات التاريخية. كل مجموعة فرعية هي في الغالب باللغة الإنجليزية، بنسبة إجمالية تتراوح بين 91% و99%، وتتضمن أيضًا عددًا صغيرًا من المستندات باللغات الإسبانية، والفرنسية، والألمانية، والإيطالية، واللاتينية، والإندونيسية.
توزيع مجموعة البيانات
- 00_documents (الوثائق العامة): 232,790 صفحة في المجموع (231,668 جلسة تدريبية / 1,122 جلسة تقييم)، مع توزيع اللغة التالي: الإنجليزية 94.46%، الإسبانية 0.58%، الفرنسية 0.46%، الإندونيسية 0.45%، والألمانية 0.42%.
- 01_كتب (كتب ووثائق): 17,474 صفحة في المجموع (16,575 تدريب / 899 تقييم)، مع توزيع اللغة التالي: الإنجليزية 91.28%، الفرنسية 0.54%، اللاتينية 0.31%، الألمانية 0.27%، والهندية 0.12%.
- 02_loc_transcripts (السجلات الكونجرسية/نصوص الخطابات): 9,989 صفحة إجماليًا (9,891 للتدريب / 98 للتقييم)، مع توزيع اللغة التالي: الإنجليزية 98.21%، الإسبانية 0.59%، الفرنسية 0.46%، الألمانية 0.45%، والإيطالية 0.11%.
- 03_national_archives: 9,997 صفحة في المجموع (9,828 تدريبًا / 169 تقييمًا)، مع توزيع اللغة التالي: الإنجليزية 99.82%، الإسبانية 0.12%، الفرنسية 0.02%، السويدية 0.01%، والألمانية 0.01%.
مقارنةً بالإصدار السابق olmOCR-mix-0225، يُحسّن olmOCR-mix-1025 جودة التعليقات التوضيحية وتغطية المستندات. يستخدم هذا الإصدار GPT-4.1 واستراتيجية مُحسّنة للتوجيه لتوليد التعرف الضوئي على الحروف (OCR)، مما يجعل ترتيب قراءة النص أكثر اتساقًا مع التصميم الأصلي ويحافظ على بنية المحتوى الرقمي. في الوقت نفسه، تم توحيد الصيغ الرياضية في مجموعة البيانات، وعرض الجداول بتنسيق HTML، وإضافة نص بديل أساسي للصور. علاوة على ذلك، أُضيفت نماذج من الكتب والأرشيفات والمستندات المكتوبة بخط اليد، مما يجعله أكثر ملاءمة لتدريب النماذج بشكل متين في السيناريوهات المستندة إلى المستندات.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.