HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données De Transcription De Texte LightOnOCR-mix-0126

Discuter sur Discord

Date

il y a 3 heures

Organisation

URL du document

2601.14251

Licence

Other

LightOnOCR-mix-0126 est un ensemble de données de transcription de texte OCR à grande échelle publié par LightOn en 2026. L'article associé s'intitule « LightOnOCR : un modèle vision-langage multilingue de bout en bout pour l'OCR de pointe », qui vise à fournir une supervision pour les modèles OCR de bout en bout et de compréhension de documents, produisant un texte transcrit de page complète naturellement ordonné.

Cet ensemble de données se compose de deux parties : un ensemble d’entraînement et un ensemble de validation. Chaque échantillon correspond à la transcription textuelle d’une page de document. Le contenu inclut le texte de la page organisé dans l’ordre de lecture naturel (les formats de sortie comprennent Markdown, les formules mathématiques LaTeX et les tableaux HTML, etc.) ainsi que le balisage structuré correspondant, couvrant différents types de contenu tels que les paragraphes, les titres, les listes et les tableaux.

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp