HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

olmOCR: فتح تريليونات الرموز في ملفات PDF باستخدام نماذج اللغة والرؤية

{Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski}

olmOCR: فتح تريليونات الرموز في ملفات PDF باستخدام نماذج اللغة والرؤية

الملخص

يمكن أن توفر المستندات بصيغة PDF تريليونات الرموز الجديدة عالية الجودة لتدريب نماذج اللغة. ومع ذلك، تأتي هذه المستندات بتنوع كبير من الأنواع، مع تنسيقات وتخطيطات بصرية مختلفة، مما يشكل تحديًا عند محاولة استخراج المحتوى الأساسي وتمثيله بدقة لاستخدامه في نماذج اللغة. غالبًا ما تنتج الأدوات المفتوحة المصدر التقليدية استخراجات ذات جودة أقل مقارنة بنماذج اللغة البصرية (VLMs)، لكن الاعتماد على أفضل نماذج VLMs قد يكون مكلفًا جدًا (مثلاً، أكثر من 6240 دولار أمريكي لكل مليون صفحة PDF بالنسبة لـ GPT-4o) أو غير عملي إذا لم تُسمح بإرسال ملفات PDF إلى واجهات برمجة التطبيقات الخاصة. نقدم "olmOCR"، أداة مفتوحة المصدر لتحويل المستندات PDF إلى نص عادي منسق ومتسلسل بترتيب قراءة طبيعي، مع الحفاظ على الهيكلية المحتوى مثل الأقسام، الجداول، القوائم، المعادلات، وغيرها. تُشغل أداتنا نموذجًا لغويًا بصريًا (VLM) مُعدّل دقيقًا بحجم 7 مليار معلمة، تم تدريبه على مجموعة بيانات "olmOCR-mix-0225" التي تتضمن عينة من 260,000 صفحة من أكثر من 100,000 ملف PDF تم جمعها من الإنترنت، وتمتاز بخصائص متنوعة تشمل الرسومات، النصوص اليدوية، والمسح الضوئي منخفض الجودة. تم تحسين olmOCR لمعالجة كميات كبيرة من البيانات دفعة واحدة، ويمكنها التوسع بمرن حسب التكوينات المادية المختلفة، وتُحوّل مليون صفحة PDF بتكلفة لا تتجاوز 176 دولارًا أمريكيًا فقط. ولتسهيل المقارنة مع الأنظمة الحالية، نقدّم أيضًا "olmOCR-Bench"، مجموعة مختارة من 1400 ملف PDF تمثل العديد من أنواع المحتوى التي تظل صعبة حتى لأفضل الأدوات ونماذج VLM، مثل الصيغ الرياضية، الجداول، الخطوط الصغيرة، المسح الضوئي القديم، وغيرها. وجدنا أن olmOCR يتفوق حتى على أفضل نماذج VLM مثل GPT-4o وGemini Flash 2 وQwen-2.5-VL. ونُطلق بشكل مفتوح جميع مكونات olmOCR: النموذج المُعدّل دقيقًا لـ VLM، وشفرة التدريب والبيانات، وPipeline استخلاص فعّالة تدعم خلفيات vLLM وSGLang، بالإضافة إلى معيار الاختبار olmOCR-Bench.

مستودعات الكود

allenai/olmocr
رسمي
pytorch
مذكور في GitHub

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp