مجموعة بيانات التعرف الضوئي على الحروف (OCR) على الصيغ الرياضية في LaTeX
التاريخ
الحجم
رابط النشر
مجموعة بيانات LaTeX OCR هي مجموعة بيانات تركز على مشكلة التعرف على الصيغ الرياضية المعقدة في مجال التعرف الضوئي على الحروف (OCR). تحتوي مجموعة بيانات LaTeX OCR على تكوينات متعددة، كل منها يتميز بميزات وتقسيم بيانات مختلفين. على سبيل المثال، يحتوي التكوين "الكامل" على حوالي 100 ألف عينة مطبوعة، بينما يحتوي التكوين "synthetic_handwrite" على 100 ألف عينة مكتوبة بخط اليد تم تصنيعها باستخدام خطوط مكتوبة بخط اليد استنادًا إلى صيغ مطبوعة.
يحتوي هذا المستودع على 5 مجموعات بيانات:
small
إنها مجموعة بيانات صغيرة تحتوي على 110 عينة، تُستخدم للاختبارfull
إنها مجموعة بيانات كاملة تبلغ حوالي 100 ألف نسخة مطبوعة. في الواقع، عدد العينات أقل بقليل من 100 ألف، وذلك لأن الكثير من بيانات LaTeX غير القابلة للعرض يتم إزالتها باستخدام شجرة بناء الجملة المجردة في LaTeX.synthetic_handwrite
إنها مجموعة بيانات كاملة مكونة من 100 ألف حرف مكتوبة بخط اليد، بناءً علىfull
تم تصنيع الصيغة باستخدام الخطوط المكتوبة بخط اليد، والتي يمكن اعتبارها بمثابة خط يد بشري على الورق. عدد العينات في الواقع أقل بقليل من 100 ألف، لنفس السبب المذكور أعلاه.human_handwrite
إنها مجموعة بيانات أصغر حجمًا للكتابة اليدوية تتوافق بشكل أكبر مع الكتابة اليدوية البشرية على الشاشات الإلكترونية. بشكل رئيسي منCROHME
. لقد قمنا بفحصه باستخدام شجرة بناء الجملة المجردة في LaTeX.human_handwrite_print
هو منhuman_handwrite
مجموعة البيانات المطبوعة وجزء الصيغة وhuman_handwrite
وبالمثل، يتم تقديم الصور من الصيغ باستخدام LaTeX.
تأتي مجموعة بيانات OCR الخاصة بـ LaTeX من مصادر متعددة، بما في ذلك https://zenodo.org/record/56198#.V2p0KTXT6eA
و https://www.isical.ac.in/~crohme/
البيانات التي تم جمعها، وكذلك البيانات التي تم إنشاؤها بنفسك. يمكن استخدامه لتدريب وتقييم نماذج التعرف الضوئي على الحروف، ويعمل بشكل جيد بشكل خاص عند معالجة الرموز والصيغ الرياضية المعقدة. يتم استخدامه على نطاق واسع في مجالات رقمنة الوثائق الأكاديمية والتعليم عبر الإنترنت ومساعدي البحث العلمي والتعلم الشخصي.