التاريخ

منذ 8 أشهر

الحجم

71.74 GB

المؤسسة

رابط الورقة البحثية

2502.18443

الترخيص

Other

الوسوم

OCR

olmOCR-mix-1025 عبارة عن مجموعة بيانات OCR عالية الجودة وواسعة النطاق لمستندات PDF أصدرها معهد ألين للذكاء الاصطناعي في عام 2025. عنوان الورقة البحثية ذات الصلة هو "olmOCR: فتح تريليونات الرموز في ملفات PDF باستخدام نماذج لغة الرؤيةيهدف النظام إلى دعم تدريب وضبط وتقييم نماذج التعرف الضوئي على الحروف (OCR)، ونماذج فهم المستندات، والنماذج الكبيرة متعددة الوسائط. تحتوي هذه المجموعة على ما يقارب 270,250 صفحة من مستندات PDF، منها 267,962 صفحة في مجموعة التدريب و2,288 صفحة في مجموعة التقييم. تغطي هذه المجموعة أنواعًا متنوعة من المستندات، بما في ذلك الأوراق الأكاديمية، والوثائق الأرشيفية، ونصوص الكتب الممسوحة ضوئيًا، والمخطوطات التاريخية. كل مجموعة فرعية هي في الغالب باللغة الإنجليزية، بنسبة إجمالية تتراوح بين 91% و99%، وتتضمن أيضًا عددًا صغيرًا من المستندات باللغات الإسبانية، والفرنسية، والألمانية، والإيطالية، واللاتينية، والإندونيسية.

توزيع مجموعة البيانات

00_documents (الوثائق العامة): 232,790 صفحة في المجموع (231,668 جلسة تدريبية / 1,122 جلسة تقييم)، مع توزيع اللغة التالي: الإنجليزية 94.46%، الإسبانية 0.58%، الفرنسية 0.46%، الإندونيسية 0.45%، والألمانية 0.42%.
01_كتب (كتب ووثائق): 17,474 صفحة في المجموع (16,575 تدريب / 899 تقييم)، مع توزيع اللغة التالي: الإنجليزية 91.28%، الفرنسية 0.54%، اللاتينية 0.31%، الألمانية 0.27%، والهندية 0.12%.
02_loc_transcripts (السجلات الكونجرسية/نصوص الخطابات): 9,989 صفحة إجماليًا (9,891 للتدريب / 98 للتقييم)، مع توزيع اللغة التالي: الإنجليزية 98.21%، الإسبانية 0.59%، الفرنسية 0.46%، الألمانية 0.45%، والإيطالية 0.11%.
03_national_archives: 9,997 صفحة في المجموع (9,828 تدريبًا / 169 تقييمًا)، مع توزيع اللغة التالي: الإنجليزية 99.82%، الإسبانية 0.12%، الفرنسية 0.02%، السويدية 0.01%، والألمانية 0.01%. مقارنةً بالإصدار السابق olmOCR-mix-0225، يُحسّن olmOCR-mix-1025 جودة التعليقات التوضيحية وتغطية المستندات. يستخدم هذا الإصدار GPT-4.1 واستراتيجية مُحسّنة للتوجيه لتوليد التعرف الضوئي على الحروف (OCR)، مما يجعل ترتيب قراءة النص أكثر اتساقًا مع التصميم الأصلي ويحافظ على بنية المحتوى الرقمي. في الوقت نفسه، تم توحيد الصيغ الرياضية في مجموعة البيانات، وعرض الجداول بتنسيق HTML، وإضافة نص بديل أساسي للصور. علاوة على ذلك، أُضيفت نماذج من الكتب والأرشيفات والمستندات المكتوبة بخط اليد، مما يجعله أكثر ملاءمة لتدريب النماذج بشكل متين في السيناريوهات المستندة إلى المستندات.

olmOCR-mix-1025.torrent

البذر 1جارٍ التنزيل 0مكتمل 8إجمالي التنزيلات 101

olmOCR-mix-1025/
- README.md
  2.78 KB
- README.txt
  5.56 KB

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

منذ 5 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

استخدم مجموعة البيانات هذه

ناقش على Discord

التاريخ

منذ 8 أشهر

الحجم

71.74 GB

المؤسسة

رابط الورقة البحثية

2502.18443

الترخيص

Other

الوسوم

OCR

توزيع مجموعة البيانات

00_documents (الوثائق العامة): 232,790 صفحة في المجموع (231,668 جلسة تدريبية / 1,122 جلسة تقييم)، مع توزيع اللغة التالي: الإنجليزية 94.46%، الإسبانية 0.58%، الفرنسية 0.46%، الإندونيسية 0.45%، والألمانية 0.42%.
01_كتب (كتب ووثائق): 17,474 صفحة في المجموع (16,575 تدريب / 899 تقييم)، مع توزيع اللغة التالي: الإنجليزية 91.28%، الفرنسية 0.54%، اللاتينية 0.31%، الألمانية 0.27%، والهندية 0.12%.
02_loc_transcripts (السجلات الكونجرسية/نصوص الخطابات): 9,989 صفحة إجماليًا (9,891 للتدريب / 98 للتقييم)، مع توزيع اللغة التالي: الإنجليزية 98.21%، الإسبانية 0.59%، الفرنسية 0.46%، الألمانية 0.45%، والإيطالية 0.11%.
03_national_archives: 9,997 صفحة في المجموع (9,828 تدريبًا / 169 تقييمًا)، مع توزيع اللغة التالي: الإنجليزية 99.82%، الإسبانية 0.12%، الفرنسية 0.02%، السويدية 0.01%، والألمانية 0.01%. مقارنةً بالإصدار السابق olmOCR-mix-0225، يُحسّن olmOCR-mix-1025 جودة التعليقات التوضيحية وتغطية المستندات. يستخدم هذا الإصدار GPT-4.1 واستراتيجية مُحسّنة للتوجيه لتوليد التعرف الضوئي على الحروف (OCR)، مما يجعل ترتيب قراءة النص أكثر اتساقًا مع التصميم الأصلي ويحافظ على بنية المحتوى الرقمي. في الوقت نفسه، تم توحيد الصيغ الرياضية في مجموعة البيانات، وعرض الجداول بتنسيق HTML، وإضافة نص بديل أساسي للصور. علاوة على ذلك، أُضيفت نماذج من الكتب والأرشيفات والمستندات المكتوبة بخط اليد، مما يجعله أكثر ملاءمة لتدريب النماذج بشكل متين في السيناريوهات المستندة إلى المستندات.

olmOCR-mix-1025.torrent

البذر 1جارٍ التنزيل 0مكتمل 8إجمالي التنزيلات 101

olmOCR-mix-1025/
- README.md
  2.78 KB
- README.txt
  5.56 KB

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

منذ 5 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

مجموعة بيانات التعرف على المستندات olmOCR-mix-1025

توزيع مجموعة البيانات

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات التعرف على المستندات olmOCR-mix-1025

توزيع مجموعة البيانات

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات التعرف على المستندات olmOCR-mix-1025

توزيع مجموعة البيانات

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص