Command Palette
Search for a command to run...
Ensemble De Données De Reconnaissance De Documents olmOCR-mix-1025
olmOCR-mix-1025 est un ensemble de données OCR de documents PDF à grande échelle et de haute qualité, publié par l'Allen Institute for AI en 2025. L'article associé s'intitule « olmOCR : Débloquer des milliards de jetons dans les PDF grâce aux modèles de langage de visionLe système vise à soutenir la formation, le réglage fin et l'évaluation des modèles de reconnaissance optique de caractères (OCR), des modèles de compréhension de documents et des grands modèles multimodaux.
Cet ensemble de données contient environ 270 250 pages de documents PDF, dont 267 962 pages dans l'ensemble d'entraînement et 2 288 pages dans l'ensemble d'évaluation. Il couvre divers types de documents, notamment des articles universitaires, des documents d'archives, des textes de livres numérisés et des manuscrits historiques. Chaque sous-ensemble est majoritairement en anglais, avec une proportion globale comprise entre 91% et 99%, et comprend également un petit nombre de documents en espagnol, français, allemand, italien, latin et indonésien.
Distribution des ensembles de données
- 00_documents (Documents généraux) : 232 790 pages au total (231 668 sessions de formation / 1 122 sessions d'évaluation), avec la répartition linguistique suivante : anglais 94,46%, espagnol 0,58%, français 0,46%, indonésien 0,45% et allemand 0,42%.
- 01_books (Livres et documents) : 17 474 pages au total (16 575 formations / 899 évaluations), avec la répartition linguistique suivante : anglais 91,28%, français 0,54%, latin 0,31%, allemand 0,27% et hindi 0,12%.
- 02_loc_transcripts (Congressional Records/Speech Transcripts) : 9 989 pages au total (9 891 pour la formation / 98 pour l'évaluation), avec la répartition linguistique suivante : anglais 98,21%, espagnol 0,59%, français 0,46%, allemand 0,45% et italien 0,11%.
- 03_national_archives : 9 997 pages au total (9 828 formations / 169 évaluations), avec la répartition linguistique suivante : anglais 99,82%, espagnol 0,12%, français 0,02%, suédois 0,01% et allemand 0,01%.
Comparée à la version précédente olmOCR-mix-0225, olmOCR-mix-1025 améliore encore la qualité des annotations et la couverture des documents. Cette version utilise GPT-4.1 et une stratégie d'invite optimisée pour la reconnaissance optique de caractères (OCR), ce qui rend l'ordre de lecture du texte plus cohérent avec la mise en page originale et préserve la structure native du contenu numérique. Par ailleurs, les formules mathématiques du jeu de données ont été normalisées, les tableaux sont présentés au format HTML et un texte alternatif de base a été ajouté aux images. Enfin, des exemples de livres, d'archives et de documents manuscrits ont été intégrés, ce qui la rend plus adaptée à l'entraînement de modèles robustes dans des contextes documentaires.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.