التاريخ

منذ عام واحد

الحجم

52.16 GB

المؤسسة

عنوان URL للنشر

github.com

رابط الورقة البحثية

arxiv.org

الترخيص

CC BY 4.0

الوسوم

OCR

olmOCR-mix-0225 عبارة عن مجموعة بيانات مستندات PDF عالية الجودة وواسعة النطاق مصممة لتدريب نماذج التعرف الضوئي على الحروف (OCR) وتحسينها. تم إصدار هذه المجموعة من البيانات بواسطة معهد ألين للذكاء الاصطناعي في عام 2025، ونتائج الورقة ذات الصلة هي "olmOCR: فتح تريليونات الرموز في ملفات PDF باستخدام نماذج لغة الرؤية".

خصائص مجموعة البيانات

تحتوي مجموعة البيانات على حوالي 250 ألف صفحة من محتوى PDF، تغطي أنواعًا مختلفة مثل الأوراق الأكاديمية والمستندات القانونية والأدلة. لا تحتوي مجموعة البيانات على محتوى نصي فحسب، بل تستخرج أيضًا معلومات إحداثيات العناصر البارزة (مثل كتل النص والصور) في كل صفحة. يتم حقن هذه المعلومات بشكل ديناميكي في موجه النموذج، مما يقلل بشكل كبير من هلوسات النموذج. يمكن استخدام مجموعة البيانات هذه لتدريب أو ضبط أو تقييم خط أنابيب معالجة مستندات OCR الخاص بك. بالإضافة إلى ذلك، يتم شرح مجموعة البيانات باستخدام GPT-4o لضمان الجودة العالية واتساق الشروح. وتأتي البيانات من مجموعة واسعة من المصادر، بما في ذلك مستندات PDF التي تم جمعها من مواقع الويب العامة والكتب من أرشيف الإنترنت. لا تحتوي مجموعة البيانات على محتوى نصي فحسب، بل تستخرج أيضًا معلومات إحداثيات العناصر البارزة (مثل كتل النص والصور) في كل صفحة. يتم حقن هذه المعلومات بشكل ديناميكي في موجه النموذج، مما يقلل بشكل كبير من هلوسات النموذج.

olmOCR-mix-0225.torrent

البذر 1جارٍ التنزيل 0مكتمل 279إجمالي التنزيلات 415

olmOCR-mix-0225/
- README.md
  1.87 KB
- README.txt
  3.73 KB

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

استخدم مجموعة البيانات هذه

ناقش على Discord

التاريخ

منذ عام واحد

الحجم

52.16 GB

المؤسسة

عنوان URL للنشر

github.com

رابط الورقة البحثية

arxiv.org

الترخيص

CC BY 4.0

الوسوم

OCR

خصائص مجموعة البيانات

olmOCR-mix-0225.torrent

البذر 1جارٍ التنزيل 0مكتمل 279إجمالي التنزيلات 415

olmOCR-mix-0225/
- README.md
  1.87 KB
- README.txt
  3.73 KB

مجموعات البيانات ذات الصلة

مجموعة بيانات تعليمات المهام الإبداعية للمهنيين المبدعين

منذ 2 أشهر

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

منذ 4 أشهر

مجموعة بيانات فيديو تركيب الانعكاس الشفاف TransPhy3D

منذ 5 أشهر

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

منذ 5 أشهر

مجموعة بيانات قياس حجم الدم عن بعد متعدد الكاميرات MCD-rPPG

منذ 5 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

olmOCR-mix-0225 مجموعة بيانات مستندات PDF واسعة النطاق

خصائص مجموعة البيانات

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

olmOCR-mix-0225 مجموعة بيانات مستندات PDF واسعة النطاق

خصائص مجموعة البيانات

مجموعات البيانات ذات الصلة

مجموعة بيانات تعليمات المهام الإبداعية للمهنيين المبدعين

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

مجموعة بيانات فيديو تركيب الانعكاس الشفاف TransPhy3D

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات قياس حجم الدم عن بعد متعدد الكاميرات MCD-rPPG

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

olmOCR-mix-0225 مجموعة بيانات مستندات PDF واسعة النطاق

خصائص مجموعة البيانات

مجموعات البيانات ذات الصلة

مجموعة بيانات تعليمات المهام الإبداعية للمهنيين المبدعين

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

مجموعة بيانات فيديو تركيب الانعكاس الشفاف TransPhy3D

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات قياس حجم الدم عن بعد متعدد الكاميرات MCD-rPPG

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

مجموعات البيانات ذات الصلة

مجموعة بيانات تعليمات المهام الإبداعية للمهنيين المبدعين

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

مجموعة بيانات فيديو تركيب الانعكاس الشفاف TransPhy3D

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات قياس حجم الدم عن بعد متعدد الكاميرات MCD-rPPG

مجموعات البيانات ذات الصلة

مجموعة بيانات تعليمات المهام الإبداعية للمهنيين المبدعين

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

مجموعة بيانات فيديو تركيب الانعكاس الشفاف TransPhy3D

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات قياس حجم الدم عن بعد متعدد الكاميرات MCD-rPPG