التاريخ

منذ 2 أعوام

الحجم

905.81 MB

عنوان URL للنشر

الوسوم

مجموعة بيانات LaTeX OCR هي مجموعة بيانات تركز على مشكلة التعرف على الصيغ الرياضية المعقدة في مجال التعرف الضوئي على الحروف (OCR). تحتوي مجموعة بيانات LaTeX OCR على تكوينات متعددة، كل منها يتميز بميزات وتقسيم بيانات مختلفين. على سبيل المثال، يحتوي التكوين "الكامل" على حوالي 100 ألف عينة مطبوعة، بينما يحتوي التكوين "synthetic_handwrite" على 100 ألف عينة مكتوبة بخط اليد تم تصنيعها باستخدام خطوط مكتوبة بخط اليد استنادًا إلى صيغ مطبوعة. يحتوي هذا المستودع على 5 مجموعات بيانات:

small إنها مجموعة بيانات صغيرة تحتوي على 110 عينة، تُستخدم للاختبار
full إنها مجموعة بيانات كاملة تبلغ حوالي 100 ألف نسخة مطبوعة. في الواقع، عدد العينات أقل بقليل من 100 ألف، وذلك لأن الكثير من بيانات LaTeX غير القابلة للعرض يتم إزالتها باستخدام شجرة بناء الجملة المجردة في LaTeX.
synthetic_handwrite إنها مجموعة بيانات كاملة مكونة من 100 ألف حرف مكتوبة بخط اليد، بناءً على full تم تصنيع الصيغة باستخدام الخطوط المكتوبة بخط اليد، والتي يمكن اعتبارها بمثابة خط يد بشري على الورق. عدد العينات في الواقع أقل بقليل من 100 ألف، لنفس السبب المذكور أعلاه.
human_handwrite إنها مجموعة بيانات أصغر حجمًا للكتابة اليدوية تتوافق بشكل أكبر مع الكتابة اليدوية البشرية على الشاشات الإلكترونية. بشكل رئيسي من CROHME . لقد قمنا بفحصه باستخدام شجرة بناء الجملة المجردة في LaTeX.
human_handwrite_print هو من human_handwrite مجموعة البيانات المطبوعة وجزء الصيغة و human_handwrite وبالمثل، يتم تقديم الصور من الصيغ باستخدام LaTeX. تأتي مجموعة بيانات OCR الخاصة بـ LaTeX من مصادر متعددة، بما في ذلك https://zenodo.org/record/56198#.V2p0KTXT6eA و https://www.isical.ac.in/~crohme/ البيانات التي تم جمعها، وكذلك البيانات التي تم إنشاؤها بنفسك. يمكن استخدامه لتدريب وتقييم نماذج التعرف الضوئي على الحروف، ويعمل بشكل جيد بشكل خاص عند معالجة الرموز والصيغ الرياضية المعقدة. يتم استخدامه على نطاق واسع في مجالات رقمنة الوثائق الأكاديمية والتعليم عبر الإنترنت ومساعدي البحث العلمي والتعلم الشخصي.

LaTeX_OCR.torrent

البذر 1جارٍ التنزيل 0مكتمل 247إجمالي التنزيلات 429

LaTeX_OCR/
- README.md
  2.29 KB
- README.txt
  4.59 KB

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعة بيانات مشكلة الاستدلال Open-RL

منذ 3 أشهر

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

منذ 4 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

استخدم مجموعة البيانات هذه

ناقش على Discord

التاريخ

منذ 2 أعوام

الحجم

905.81 MB

عنوان URL للنشر

github.com

الوسوم

OCR

small إنها مجموعة بيانات صغيرة تحتوي على 110 عينة، تُستخدم للاختبار
full إنها مجموعة بيانات كاملة تبلغ حوالي 100 ألف نسخة مطبوعة. في الواقع، عدد العينات أقل بقليل من 100 ألف، وذلك لأن الكثير من بيانات LaTeX غير القابلة للعرض يتم إزالتها باستخدام شجرة بناء الجملة المجردة في LaTeX.
synthetic_handwrite إنها مجموعة بيانات كاملة مكونة من 100 ألف حرف مكتوبة بخط اليد، بناءً على full تم تصنيع الصيغة باستخدام الخطوط المكتوبة بخط اليد، والتي يمكن اعتبارها بمثابة خط يد بشري على الورق. عدد العينات في الواقع أقل بقليل من 100 ألف، لنفس السبب المذكور أعلاه.
human_handwrite إنها مجموعة بيانات أصغر حجمًا للكتابة اليدوية تتوافق بشكل أكبر مع الكتابة اليدوية البشرية على الشاشات الإلكترونية. بشكل رئيسي من CROHME . لقد قمنا بفحصه باستخدام شجرة بناء الجملة المجردة في LaTeX.
human_handwrite_print هو من human_handwrite مجموعة البيانات المطبوعة وجزء الصيغة و human_handwrite وبالمثل، يتم تقديم الصور من الصيغ باستخدام LaTeX. تأتي مجموعة بيانات OCR الخاصة بـ LaTeX من مصادر متعددة، بما في ذلك https://zenodo.org/record/56198#.V2p0KTXT6eA و https://www.isical.ac.in/~crohme/ البيانات التي تم جمعها، وكذلك البيانات التي تم إنشاؤها بنفسك. يمكن استخدامه لتدريب وتقييم نماذج التعرف الضوئي على الحروف، ويعمل بشكل جيد بشكل خاص عند معالجة الرموز والصيغ الرياضية المعقدة. يتم استخدامه على نطاق واسع في مجالات رقمنة الوثائق الأكاديمية والتعليم عبر الإنترنت ومساعدي البحث العلمي والتعلم الشخصي.

LaTeX_OCR.torrent

البذر 1جارٍ التنزيل 0مكتمل 247إجمالي التنزيلات 429

LaTeX_OCR/
- README.md
  2.29 KB
- README.txt
  4.59 KB

مجموعة بيانات مشكلة الاستدلال Open-RL

منذ 3 أشهر

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

منذ 4 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

مجموعة بيانات التعرف الضوئي على الحروف (OCR) على الصيغ الرياضية في LaTeX

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات التعرف الضوئي على الحروف (OCR) على الصيغ الرياضية في LaTeX

مجموعة بيانات مشكلة الاستدلال Open-RL

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات التعرف الضوئي على الحروف (OCR) على الصيغ الرياضية في LaTeX

مجموعة بيانات مشكلة الاستدلال Open-RL

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

مجموعة بيانات مشكلة الاستدلال Open-RL

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

مجموعة بيانات مشكلة الاستدلال Open-RL

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص