Command Palette
Search for a command to run...
مجموعة بيانات التعرف الضوئي على الحروف (OCR) على الصيغ الرياضية في LaTeX
التاريخ
الحجم
رابط النشر
مجموعة بيانات LaTeX OCR هي مجموعة بيانات تركز على مشكلة التعرف على الصيغ الرياضية المعقدة في مجال التعرف الضوئي على الحروف (OCR). تحتوي مجموعة بيانات LaTeX OCR على تكوينات متعددة، كل منها يتميز بميزات وتقسيم بيانات مختلفين. على سبيل المثال، يحتوي التكوين "الكامل" على حوالي 100 ألف عينة مطبوعة، بينما يحتوي التكوين "synthetic_handwrite" على 100 ألف عينة مكتوبة بخط اليد تم تصنيعها باستخدام خطوط مكتوبة بخط اليد استنادًا إلى صيغ مطبوعة.
يحتوي هذا المستودع على 5 مجموعات بيانات:
smallإنها مجموعة بيانات صغيرة تحتوي على 110 عينة، تُستخدم للاختبارfullإنها مجموعة بيانات كاملة تبلغ حوالي 100 ألف نسخة مطبوعة. في الواقع، عدد العينات أقل بقليل من 100 ألف، وذلك لأن الكثير من بيانات LaTeX غير القابلة للعرض يتم إزالتها باستخدام شجرة بناء الجملة المجردة في LaTeX.synthetic_handwriteإنها مجموعة بيانات كاملة مكونة من 100 ألف حرف مكتوبة بخط اليد، بناءً علىfullتم تصنيع الصيغة باستخدام الخطوط المكتوبة بخط اليد، والتي يمكن اعتبارها بمثابة خط يد بشري على الورق. عدد العينات في الواقع أقل بقليل من 100 ألف، لنفس السبب المذكور أعلاه.human_handwriteإنها مجموعة بيانات أصغر حجمًا للكتابة اليدوية تتوافق بشكل أكبر مع الكتابة اليدوية البشرية على الشاشات الإلكترونية. بشكل رئيسي منCROHME. لقد قمنا بفحصه باستخدام شجرة بناء الجملة المجردة في LaTeX.human_handwrite_printهو منhuman_handwriteمجموعة البيانات المطبوعة وجزء الصيغة وhuman_handwriteوبالمثل، يتم تقديم الصور من الصيغ باستخدام LaTeX.
تأتي مجموعة بيانات OCR الخاصة بـ LaTeX من مصادر متعددة، بما في ذلك https://zenodo.org/record/56198#.V2p0KTXT6eA و https://www.isical.ac.in/~crohme/ البيانات التي تم جمعها، وكذلك البيانات التي تم إنشاؤها بنفسك. يمكن استخدامه لتدريب وتقييم نماذج التعرف الضوئي على الحروف، ويعمل بشكل جيد بشكل خاص عند معالجة الرموز والصيغ الرياضية المعقدة. يتم استخدامه على نطاق واسع في مجالات رقمنة الوثائق الأكاديمية والتعليم عبر الإنترنت ومساعدي البحث العلمي والتعلم الشخصي.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.