HyperAIHyperAI

Command Palette

Search for a command to run...

olmOCR-mix-0225 مجموعة بيانات مستندات PDF واسعة النطاق

التاريخ

منذ 8 أشهر

الحجم

52.16 GB

المؤسسة

معهد ألين للذكاء الاصطناعي

رابط النشر

github.com

رابط الورقة البحثية

arxiv.org

الترخيص

CC BY 4.0

olmOCR-mix-0225 عبارة عن مجموعة بيانات مستندات PDF عالية الجودة وواسعة النطاق مصممة لتدريب نماذج التعرف الضوئي على الحروف (OCR) وتحسينها. تم إصدار هذه المجموعة من البيانات بواسطة معهد ألين للذكاء الاصطناعي في عام 2025، ونتائج الورقة ذات الصلة هي "olmOCR: فتح تريليونات الرموز في ملفات PDF باستخدام نماذج لغة الرؤية".

خصائص مجموعة البيانات

تحتوي مجموعة البيانات على حوالي 250 ألف صفحة من محتوى PDF، تغطي أنواعًا مختلفة مثل الأوراق الأكاديمية والمستندات القانونية والأدلة. لا تحتوي مجموعة البيانات على محتوى نصي فحسب، بل تستخرج أيضًا معلومات إحداثيات العناصر البارزة (مثل كتل النص والصور) في كل صفحة. يتم حقن هذه المعلومات بشكل ديناميكي في موجه النموذج، مما يقلل بشكل كبير من هلوسات النموذج. يمكن استخدام مجموعة البيانات هذه لتدريب أو ضبط أو تقييم خط أنابيب معالجة مستندات OCR الخاص بك.

بالإضافة إلى ذلك، يتم شرح مجموعة البيانات باستخدام GPT-4o لضمان الجودة العالية واتساق الشروح. وتأتي البيانات من مجموعة واسعة من المصادر، بما في ذلك مستندات PDF التي تم جمعها من مواقع الويب العامة والكتب من أرشيف الإنترنت. لا تحتوي مجموعة البيانات على محتوى نصي فحسب، بل تستخرج أيضًا معلومات إحداثيات العناصر البارزة (مثل كتل النص والصور) في كل صفحة. يتم حقن هذه المعلومات بشكل ديناميكي في موجه النموذج، مما يقلل بشكل كبير من هلوسات النموذج.

olmOCR-mix-0225.torrent
البذر 1التنزيل 0مكتمل 233إجمالي التنزيلات 314
  • olmOCR-mix-0225/
    • README.md
      1.87 KB
    • README.txt
      3.73 KB
      • data/
        • olmOCR-mix-0225.zip
          52.16 GB

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
olmOCR-mix-0225 مجموعة بيانات مستندات PDF واسعة النطاق | مجموعات البيانات | HyperAI