HyperAIHyperAI

Command Palette

Search for a command to run...

olmOCR-mix-0225 مجموعة بيانات مستندات PDF واسعة النطاق

Date

منذ 10 أشهر

Size

52.16 GB

Organization

معهد ألين للذكاء الاصطناعي

Publish URL

github.com

Paper URL

arxiv.org

License

CC BY 4.0

Tags

olmOCR-mix-0225 عبارة عن مجموعة بيانات مستندات PDF عالية الجودة وواسعة النطاق مصممة لتدريب نماذج التعرف الضوئي على الحروف (OCR) وتحسينها. تم إصدار هذه المجموعة من البيانات بواسطة معهد ألين للذكاء الاصطناعي في عام 2025، ونتائج الورقة ذات الصلة هي "olmOCR: فتح تريليونات الرموز في ملفات PDF باستخدام نماذج لغة الرؤية".

خصائص مجموعة البيانات

تحتوي مجموعة البيانات على حوالي 250 ألف صفحة من محتوى PDF، تغطي أنواعًا مختلفة مثل الأوراق الأكاديمية والمستندات القانونية والأدلة. لا تحتوي مجموعة البيانات على محتوى نصي فحسب، بل تستخرج أيضًا معلومات إحداثيات العناصر البارزة (مثل كتل النص والصور) في كل صفحة. يتم حقن هذه المعلومات بشكل ديناميكي في موجه النموذج، مما يقلل بشكل كبير من هلوسات النموذج. يمكن استخدام مجموعة البيانات هذه لتدريب أو ضبط أو تقييم خط أنابيب معالجة مستندات OCR الخاص بك.

بالإضافة إلى ذلك، يتم شرح مجموعة البيانات باستخدام GPT-4o لضمان الجودة العالية واتساق الشروح. وتأتي البيانات من مجموعة واسعة من المصادر، بما في ذلك مستندات PDF التي تم جمعها من مواقع الويب العامة والكتب من أرشيف الإنترنت. لا تحتوي مجموعة البيانات على محتوى نصي فحسب، بل تستخرج أيضًا معلومات إحداثيات العناصر البارزة (مثل كتل النص والصور) في كل صفحة. يتم حقن هذه المعلومات بشكل ديناميكي في موجه النموذج، مما يقلل بشكل كبير من هلوسات النموذج.

olmOCR-mix-0225.torrent
Seeding 1Downloading 0Completed 254Total Downloads 382
  • olmOCR-mix-0225/
    • README.md
      1.87 KB
    • README.txt
      3.73 KB
      • data/
        • olmOCR-mix-0225.zip
          52.16 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp