Date

il y a 2 ans

Taille

905.81 MB

URL de publication

Balises

L'ensemble de données LaTeX OCR est un ensemble de données qui se concentre sur le problème complexe de reconnaissance de formules mathématiques dans le domaine de la reconnaissance optique de caractères (OCR). L'ensemble de données LaTeX OCR contient plusieurs configurations, chacune avec des fonctionnalités et un partitionnement de données différents. Par exemple, la configuration « complète » contient environ 100 000 échantillons imprimés, tandis que la configuration « synthetic_handwrite » contient 100 000 échantillons manuscrits synthétisés à l'aide de polices manuscrites basées sur des formules imprimées. Ce référentiel contient 5 jeux de données :

small Il s'agit d'un petit ensemble de données avec 110 échantillons, utilisé pour les tests
full Il s’agit d’un ensemble de données complet d’environ 100 000 exemplaires imprimés. En fait, le nombre d'échantillons est légèrement inférieur à 100 000, car une grande partie du LaTeX non affichable est supprimée à l'aide de l'arbre syntaxique abstrait de LaTeX.
synthetic_handwrite Il s'agit d'un ensemble de données complet de 100 000 caractères manuscrits, basé sur full La formule est synthétisée à l’aide de polices manuscrites, qui peuvent être considérées comme de l’écriture humaine sur du papier. Le nombre d'échantillons est en fait légèrement inférieur à 100 000, pour la même raison que ci-dessus.
human_handwrite Il s’agit d’un ensemble de données d’écriture manuscrite plus petit, plus cohérent avec l’écriture manuscrite humaine sur les écrans électroniques. Principalement de CROHME . Nous l'avons vérifié avec l'arbre syntaxique abstrait de LaTeX.
human_handwrite_print Est de human_handwrite L'ensemble de données imprimé, la partie formule et human_handwrite De même, les images sont rendues à partir de formules utilisant LaTeX. L'ensemble de données OCR LaTeX provient de plusieurs sources, notamment https://zenodo.org/record/56198#.V2p0KTXT6eA et https://www.isical.ac.in/~crohme/ Données collectées, ainsi que données construites par vous-même. Il peut être utilisé pour former et évaluer des modèles OCR et fonctionne particulièrement bien lors du traitement de symboles et de formules mathématiques complexes. Il est largement utilisé dans les domaines de la numérisation de documents académiques, de l'éducation en ligne, des assistants de recherche scientifique et de l'apprentissage personnel.

LaTeX_OCR.torrent

Seeding 1Téléchargement 0Terminé 247Total Downloads 429

LaTeX_OCR/
- README.md
  2.29 KB
- README.txt
  4.59 KB

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

Ensemble De Données Du Problème d'inférence Open-RL

il y a 4 mois

Ensemble De Données De Transcription De Texte LightOnOCR-mix-0126

il y a 5 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Utiliser ce jeu de données

Discuter sur Discord

Date

il y a 2 ans

Taille

905.81 MB

URL de publication

github.com

Balises

OCR

small Il s'agit d'un petit ensemble de données avec 110 échantillons, utilisé pour les tests
full Il s’agit d’un ensemble de données complet d’environ 100 000 exemplaires imprimés. En fait, le nombre d'échantillons est légèrement inférieur à 100 000, car une grande partie du LaTeX non affichable est supprimée à l'aide de l'arbre syntaxique abstrait de LaTeX.
synthetic_handwrite Il s'agit d'un ensemble de données complet de 100 000 caractères manuscrits, basé sur full La formule est synthétisée à l’aide de polices manuscrites, qui peuvent être considérées comme de l’écriture humaine sur du papier. Le nombre d'échantillons est en fait légèrement inférieur à 100 000, pour la même raison que ci-dessus.
human_handwrite Il s’agit d’un ensemble de données d’écriture manuscrite plus petit, plus cohérent avec l’écriture manuscrite humaine sur les écrans électroniques. Principalement de CROHME . Nous l'avons vérifié avec l'arbre syntaxique abstrait de LaTeX.
human_handwrite_print Est de human_handwrite L'ensemble de données imprimé, la partie formule et human_handwrite De même, les images sont rendues à partir de formules utilisant LaTeX. L'ensemble de données OCR LaTeX provient de plusieurs sources, notamment https://zenodo.org/record/56198#.V2p0KTXT6eA et https://www.isical.ac.in/~crohme/ Données collectées, ainsi que données construites par vous-même. Il peut être utilisé pour former et évaluer des modèles OCR et fonctionne particulièrement bien lors du traitement de symboles et de formules mathématiques complexes. Il est largement utilisé dans les domaines de la numérisation de documents académiques, de l'éducation en ligne, des assistants de recherche scientifique et de l'apprentissage personnel.

LaTeX_OCR.torrent

Seeding 1Téléchargement 0Terminé 247Total Downloads 429

LaTeX_OCR/
- README.md
  2.29 KB
- README.txt
  4.59 KB

Ensemble De Données Du Problème d'inférence Open-RL

il y a 4 mois

Ensemble De Données De Transcription De Texte LightOnOCR-mix-0126

il y a 5 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Ensemble De Données De Reconnaissance De Formules Mathématiques OCR LaTeX

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données De Reconnaissance De Formules Mathématiques OCR LaTeX

Ensemble De Données Du Problème d'inférence Open-RL

Ensemble De Données De Transcription De Texte LightOnOCR-mix-0126

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données De Reconnaissance De Formules Mathématiques OCR LaTeX

Ensemble De Données Du Problème d'inférence Open-RL

Ensemble De Données De Transcription De Texte LightOnOCR-mix-0126

Créer de l'IA avec l'IA

HyperAI Newsletters

Ensemble De Données Du Problème d'inférence Open-RL

Ensemble De Données De Transcription De Texte LightOnOCR-mix-0126

Ensemble De Données Du Problème d'inférence Open-RL

Ensemble De Données De Transcription De Texte LightOnOCR-mix-0126