Command Palette
Search for a command to run...
Ensemble De Données De Transcription De Texte LightOnOCR-mix-0126
LightOnOCR-mix-0126 est un ensemble de données de transcription de texte OCR à grande échelle publié par LightOn en 2026. L'article associé s'intitule « LightOnOCR : un modèle vision-langage multilingue de bout en bout pour l'OCR de pointe », qui vise à fournir une supervision pour les modèles OCR de bout en bout et de compréhension de documents, produisant un texte transcrit de page complète naturellement ordonné.
Cet ensemble de données se compose de deux parties : un ensemble d’entraînement et un ensemble de validation. Chaque échantillon correspond à la transcription textuelle d’une page de document. Le contenu inclut le texte de la page organisé dans l’ordre de lecture naturel (les formats de sortie comprennent Markdown, les formules mathématiques LaTeX et les tableaux HTML, etc.) ainsi que le balisage structuré correspondant, couvrant différents types de contenu tels que les paragraphes, les titres, les listes et les tableaux.
Créer de l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.