HyperAI

مجموعة بيانات التعرف الضوئي على الحروف (OCR) على الصيغ الرياضية في LaTeX

مجموعة بيانات LaTeX OCR هي مجموعة بيانات تركز على مشكلة التعرف على الصيغ الرياضية المعقدة في مجال التعرف الضوئي على الحروف (OCR). تحتوي مجموعة بيانات LaTeX OCR على تكوينات متعددة، كل منها يتميز بميزات وتقسيم بيانات مختلفين. على سبيل المثال، يحتوي التكوين "الكامل" على حوالي 100 ألف عينة مطبوعة، بينما يحتوي التكوين "synthetic_handwrite" على 100 ألف عينة مكتوبة بخط اليد تم تصنيعها باستخدام خطوط مكتوبة بخط اليد استنادًا إلى صيغ مطبوعة.

يحتوي هذا المستودع على 5 مجموعات بيانات:

  1. small إنها مجموعة بيانات صغيرة تحتوي على 110 عينة، تُستخدم للاختبار
  2. full إنها مجموعة بيانات كاملة تبلغ حوالي 100 ألف نسخة مطبوعة. في الواقع، عدد العينات أقل بقليل من 100 ألف، وذلك لأن الكثير من بيانات LaTeX غير القابلة للعرض يتم إزالتها باستخدام شجرة بناء الجملة المجردة في LaTeX.
  3. synthetic_handwrite إنها مجموعة بيانات كاملة مكونة من 100 ألف حرف مكتوبة بخط اليد، بناءً على full تم تصنيع الصيغة باستخدام الخطوط المكتوبة بخط اليد، والتي يمكن اعتبارها بمثابة خط يد بشري على الورق. عدد العينات في الواقع أقل بقليل من 100 ألف، لنفس السبب المذكور أعلاه.
  4. human_handwrite إنها مجموعة بيانات أصغر حجمًا للكتابة اليدوية تتوافق بشكل أكبر مع الكتابة اليدوية البشرية على الشاشات الإلكترونية. بشكل رئيسي من CROHME . لقد قمنا بفحصه باستخدام شجرة بناء الجملة المجردة في LaTeX.
  5. human_handwrite_print هو من human_handwrite مجموعة البيانات المطبوعة وجزء الصيغة و human_handwrite وبالمثل، يتم تقديم الصور من الصيغ باستخدام LaTeX.

تأتي مجموعة بيانات OCR الخاصة بـ LaTeX من مصادر متعددة، بما في ذلك https://zenodo.org/record/56198#.V2p0KTXT6eA و https://www.isical.ac.in/~crohme/ البيانات التي تم جمعها، وكذلك البيانات التي تم إنشاؤها بنفسك. يمكن استخدامه لتدريب وتقييم نماذج التعرف الضوئي على الحروف، ويعمل بشكل جيد بشكل خاص عند معالجة الرموز والصيغ الرياضية المعقدة. يتم استخدامه على نطاق واسع في مجالات رقمنة الوثائق الأكاديمية والتعليم عبر الإنترنت ومساعدي البحث العلمي والتعلم الشخصي.

LaTeX_OCR.torrent
البذر 2التنزيل 0مكتمل 95إجمالي التنزيلات 124
  • LaTeX_OCR/
    • README.md
      2.29 KB
    • README.txt
      4.59 KB
      • data/
        • LaTeX_OCR.zip
          905.81 MB