Command Palette
Search for a command to run...
olmOCR: فتح تريليونات الرموز في ملفات PDF باستخدام نماذج اللغة والرؤية
{Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski}

الملخص
يمكن أن توفر المستندات بصيغة PDF تريليونات الرموز الجديدة عالية الجودة لتدريب نماذج اللغة. ومع ذلك، تأتي هذه المستندات بتنوع كبير من الأنواع، مع تنسيقات وتخطيطات بصرية مختلفة، مما يشكل تحديًا عند محاولة استخراج المحتوى الأساسي وتمثيله بدقة لاستخدامه في نماذج اللغة. غالبًا ما تنتج الأدوات المفتوحة المصدر التقليدية استخراجات ذات جودة أقل مقارنة بنماذج اللغة البصرية (VLMs)، لكن الاعتماد على أفضل نماذج VLMs قد يكون مكلفًا جدًا (مثلاً، أكثر من 6240 دولار أمريكي لكل مليون صفحة PDF بالنسبة لـ GPT-4o) أو غير عملي إذا لم تُسمح بإرسال ملفات PDF إلى واجهات برمجة التطبيقات الخاصة. نقدم "olmOCR"، أداة مفتوحة المصدر لتحويل المستندات PDF إلى نص عادي منسق ومتسلسل بترتيب قراءة طبيعي، مع الحفاظ على الهيكلية المحتوى مثل الأقسام، الجداول، القوائم، المعادلات، وغيرها. تُشغل أداتنا نموذجًا لغويًا بصريًا (VLM) مُعدّل دقيقًا بحجم 7 مليار معلمة، تم تدريبه على مجموعة بيانات "olmOCR-mix-0225" التي تتضمن عينة من 260,000 صفحة من أكثر من 100,000 ملف PDF تم جمعها من الإنترنت، وتمتاز بخصائص متنوعة تشمل الرسومات، النصوص اليدوية، والمسح الضوئي منخفض الجودة. تم تحسين olmOCR لمعالجة كميات كبيرة من البيانات دفعة واحدة، ويمكنها التوسع بمرن حسب التكوينات المادية المختلفة، وتُحوّل مليون صفحة PDF بتكلفة لا تتجاوز 176 دولارًا أمريكيًا فقط. ولتسهيل المقارنة مع الأنظمة الحالية، نقدّم أيضًا "olmOCR-Bench"، مجموعة مختارة من 1400 ملف PDF تمثل العديد من أنواع المحتوى التي تظل صعبة حتى لأفضل الأدوات ونماذج VLM، مثل الصيغ الرياضية، الجداول، الخطوط الصغيرة، المسح الضوئي القديم، وغيرها. وجدنا أن olmOCR يتفوق حتى على أفضل نماذج VLM مثل GPT-4o وGemini Flash 2 وQwen-2.5-VL. ونُطلق بشكل مفتوح جميع مكونات olmOCR: النموذج المُعدّل دقيقًا لـ VLM، وشفرة التدريب والبيانات، وPipeline استخلاص فعّالة تدعم خلفيات vLLM وSGLang، بالإضافة إلى معيار الاختبار olmOCR-Bench.
مستودعات الكود
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.