HyperAIHyperAI

Command Palette

Search for a command to run...

olmOCR-mix-0225 مجموعة بيانات مستندات PDF واسعة النطاق

التاريخ

منذ عام واحد

الحجم

52.16 GB

المؤسسة

معهد ألين للذكاء الاصطناعي

عنوان URL للنشر

github.com

رابط الورقة البحثية

arxiv.org

الترخيص

CC BY 4.0

الوسوم

olmOCR-mix-0225 عبارة عن مجموعة بيانات مستندات PDF عالية الجودة وواسعة النطاق مصممة لتدريب نماذج التعرف الضوئي على الحروف (OCR) وتحسينها. تم إصدار هذه المجموعة من البيانات بواسطة معهد ألين للذكاء الاصطناعي في عام 2025، ونتائج الورقة ذات الصلة هي "olmOCR: فتح تريليونات الرموز في ملفات PDF باستخدام نماذج لغة الرؤية".

خصائص مجموعة البيانات

تحتوي مجموعة البيانات على حوالي 250 ألف صفحة من محتوى PDF، تغطي أنواعًا مختلفة مثل الأوراق الأكاديمية والمستندات القانونية والأدلة. لا تحتوي مجموعة البيانات على محتوى نصي فحسب، بل تستخرج أيضًا معلومات إحداثيات العناصر البارزة (مثل كتل النص والصور) في كل صفحة. يتم حقن هذه المعلومات بشكل ديناميكي في موجه النموذج، مما يقلل بشكل كبير من هلوسات النموذج. يمكن استخدام مجموعة البيانات هذه لتدريب أو ضبط أو تقييم خط أنابيب معالجة مستندات OCR الخاص بك.

بالإضافة إلى ذلك، يتم شرح مجموعة البيانات باستخدام GPT-4o لضمان الجودة العالية واتساق الشروح. وتأتي البيانات من مجموعة واسعة من المصادر، بما في ذلك مستندات PDF التي تم جمعها من مواقع الويب العامة والكتب من أرشيف الإنترنت. لا تحتوي مجموعة البيانات على محتوى نصي فحسب، بل تستخرج أيضًا معلومات إحداثيات العناصر البارزة (مثل كتل النص والصور) في كل صفحة. يتم حقن هذه المعلومات بشكل ديناميكي في موجه النموذج، مما يقلل بشكل كبير من هلوسات النموذج.

olmOCR-mix-0225.torrent
البذر 1جارٍ التنزيل 0مكتمل 271إجمالي التنزيلات 393
  • olmOCR-mix-0225/
    • README.md
      1.87 KB
    • README.txt
      3.73 KB
      • data/
        • olmOCR-mix-0225.zip
          52.16 GB

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp