olmOCR-mix-0225 مجموعة بيانات مستندات PDF واسعة النطاق
التاريخ
الحجم
رابط النشر
الترخيص
CC BY 4.0
olmOCR-mix-0225 عبارة عن مجموعة بيانات مستندات PDF عالية الجودة وواسعة النطاق مصممة لتدريب نماذج التعرف الضوئي على الحروف (OCR) وتحسينها. تم إصدار هذه المجموعة من البيانات بواسطة معهد ألين للذكاء الاصطناعي في عام 2025، ونتائج الورقة ذات الصلة هي "olmOCR: فتح تريليونات الرموز في ملفات PDF باستخدام نماذج لغة الرؤية".
خصائص مجموعة البيانات
تحتوي مجموعة البيانات على حوالي 250 ألف صفحة من محتوى PDF، تغطي أنواعًا مختلفة مثل الأوراق الأكاديمية والمستندات القانونية والأدلة. لا تحتوي مجموعة البيانات على محتوى نصي فحسب، بل تستخرج أيضًا معلومات إحداثيات العناصر البارزة (مثل كتل النص والصور) في كل صفحة. يتم حقن هذه المعلومات بشكل ديناميكي في موجه النموذج، مما يقلل بشكل كبير من هلوسات النموذج. يمكن استخدام مجموعة البيانات هذه لتدريب أو ضبط أو تقييم خط أنابيب معالجة مستندات OCR الخاص بك.
بالإضافة إلى ذلك، يتم شرح مجموعة البيانات باستخدام GPT-4o لضمان الجودة العالية واتساق الشروح. وتأتي البيانات من مجموعة واسعة من المصادر، بما في ذلك مستندات PDF التي تم جمعها من مواقع الويب العامة والكتب من أرشيف الإنترنت. لا تحتوي مجموعة البيانات على محتوى نصي فحسب، بل تستخرج أيضًا معلومات إحداثيات العناصر البارزة (مثل كتل النص والصور) في كل صفحة. يتم حقن هذه المعلومات بشكل ديناميكي في موجه النموذج، مما يقلل بشكل كبير من هلوسات النموذج.