HyperAI

MinerU أداة استخراج البيانات الشاملة

MinerU أداة استخراج البيانات الشاملة

مقدمة النموذج

MinerU هي أداة تقوم بتحويل ملفات PDF إلى تنسيقات قابلة للقراءة آليًا (مثل Markdown وJSON)، والتي يمكن استخراجها بسهولة إلى أي تنسيق. يدعم التعرف الدقيق على 176 لغة والتعرف الدقيق على نوع اللغة. تم تصميمه خصيصًا لتحويل مستندات PDF المعقدة متعددة الوسائط التي تحتوي على صور وصيغ وجداول وحواشي سفلية وما إلى ذلك إلى تنسيق Markdown واضح وسهل التحليل. بالإضافة إلى ذلك، يدعم MinerU أيضًا التحليل السريع واستخراج المحتوى الرسمي من صفحات الويب والكتب الإلكترونية التي تحتوي على معلومات تداخلية مثل الإعلانات، وبالتالي تحسين كفاءة إعداد مجموعة بيانات الذكاء الاصطناعي بشكل فعال.

الميزات الرئيسية

  • حذف الرؤوس والتذييلات والحواشي السفلية وأرقام الصفحات والعناصر الأخرى للحفاظ على التماسك الدلالي
  • إخراج النص بترتيب يمكن قراءته من قبل الإنسان لأعمدة متعددة
  • الحفاظ على بنية المستند الأصلي، بما في ذلك العناوين والفقرات والقوائم وما إلى ذلك.
  • استخراج الصور وعناوين الصور والجداول وعناوين الجداول
  • التعرف تلقائيًا على الصيغ في المستندات وتحويلها إلى لاتكس
  • التعرف تلقائيًا على الجداول في المستندات وتحويلها إلى تنسيق لاتكس
  • الكشف التلقائي عن ملفات PDF المشوهة وتمكين التعرف الضوئي على الحروف (OCR)
  • يدعم بيئات وحدة المعالجة المركزية ووحدة معالجة الرسومات
  • دعم أنظمة التشغيل Windows/Linux/Mac

نشر خطوة الاستدلال

لقد قام هذا البرنامج التعليمي بنشر النموذج والبيئة. يمكنك استخدام النموذج الكبير مباشرةً للحوار المنطقي وفقًا لإرشادات البرنامج التعليمي. البرنامج التعليمي المحدد هو كما يلي:

1. تكوين النموذج

بعد تكوين الموارد، قم بتشغيل الحاوية وانقر فوق الرابط الموجود في عنوان API للدخول إلى واجهة العرض التوضيحي.


2. افتح الواجهة

بعد فترة من الوقت، يمكنك رؤية واجهة النموذج ومن ثم يمكننا استخدام النموذج. يمكن للمستخدمين تحميل ملف PDF المراد استخراجه (لاحظ أنه لا ينبغي أن يكون أكبر من 5 ميجا بايت)، والنقر فوق زر الإرسال وسيبدأ النموذج في الاستخراج. يتم أيضًا توفير ملف عينة paper.pdf في واجهة Gradio للمستخدمين لتجربة النموذج. (مدة استخراج هذا الملف حوالي 110 ثانية)