HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات التعرف الضوئي على الحروف (OCR) على الصيغ الرياضية في LaTeX

Date

منذ عام واحد

Size

905.81 MB

Publish URL

github.com

Tags

مجموعة بيانات LaTeX OCR هي مجموعة بيانات تركز على مشكلة التعرف على الصيغ الرياضية المعقدة في مجال التعرف الضوئي على الحروف (OCR). تحتوي مجموعة بيانات LaTeX OCR على تكوينات متعددة، كل منها يتميز بميزات وتقسيم بيانات مختلفين. على سبيل المثال، يحتوي التكوين "الكامل" على حوالي 100 ألف عينة مطبوعة، بينما يحتوي التكوين "synthetic_handwrite" على 100 ألف عينة مكتوبة بخط اليد تم تصنيعها باستخدام خطوط مكتوبة بخط اليد استنادًا إلى صيغ مطبوعة.

يحتوي هذا المستودع على 5 مجموعات بيانات:

  1. small إنها مجموعة بيانات صغيرة تحتوي على 110 عينة، تُستخدم للاختبار
  2. full إنها مجموعة بيانات كاملة تبلغ حوالي 100 ألف نسخة مطبوعة. في الواقع، عدد العينات أقل بقليل من 100 ألف، وذلك لأن الكثير من بيانات LaTeX غير القابلة للعرض يتم إزالتها باستخدام شجرة بناء الجملة المجردة في LaTeX.
  3. synthetic_handwrite إنها مجموعة بيانات كاملة مكونة من 100 ألف حرف مكتوبة بخط اليد، بناءً على full تم تصنيع الصيغة باستخدام الخطوط المكتوبة بخط اليد، والتي يمكن اعتبارها بمثابة خط يد بشري على الورق. عدد العينات في الواقع أقل بقليل من 100 ألف، لنفس السبب المذكور أعلاه.
  4. human_handwrite إنها مجموعة بيانات أصغر حجمًا للكتابة اليدوية تتوافق بشكل أكبر مع الكتابة اليدوية البشرية على الشاشات الإلكترونية. بشكل رئيسي من CROHME . لقد قمنا بفحصه باستخدام شجرة بناء الجملة المجردة في LaTeX.
  5. human_handwrite_print هو من human_handwrite مجموعة البيانات المطبوعة وجزء الصيغة و human_handwrite وبالمثل، يتم تقديم الصور من الصيغ باستخدام LaTeX.

تأتي مجموعة بيانات OCR الخاصة بـ LaTeX من مصادر متعددة، بما في ذلك https://zenodo.org/record/56198#.V2p0KTXT6eA و https://www.isical.ac.in/~crohme/ البيانات التي تم جمعها، وكذلك البيانات التي تم إنشاؤها بنفسك. يمكن استخدامه لتدريب وتقييم نماذج التعرف الضوئي على الحروف، ويعمل بشكل جيد بشكل خاص عند معالجة الرموز والصيغ الرياضية المعقدة. يتم استخدامه على نطاق واسع في مجالات رقمنة الوثائق الأكاديمية والتعليم عبر الإنترنت ومساعدي البحث العلمي والتعلم الشخصي.

LaTeX_OCR.torrent
Seeding 1Downloading 0Completed 217Total Downloads 370
  • LaTeX_OCR/
    • README.md
      2.29 KB
    • README.txt
      4.59 KB
      • data/
        • LaTeX_OCR.zip
          905.81 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مجموعة بيانات التعرف الضوئي على الحروف (OCR) على الصيغ الرياضية في LaTeX | Datasets | HyperAI