HyperAIHyperAI

Command Palette

Search for a command to run...

olmOCR-mix-1025 Dokumentenerkennungsdatensatz

Datum

vor 13 Stunden

Organisation

Allen Institute for Artificial Intelligence

Paper-URL

2502.18443

Lizenz

Andere

Treten Sie der Discord-Community bei

olmOCR-mix-1025 ist ein umfangreicher, qualitativ hochwertiger OCR-Datensatz für PDF-Dokumente, der 2025 vom Allen Institute for AI veröffentlicht wurde. Die zugehörige Veröffentlichung trägt den Titel „olmOCR: Billionen von Token in PDFs mit Vision Language Models freischaltenDas System soll das Training, die Feinabstimmung und die Evaluierung von Modellen zur optischen Zeichenerkennung (OCR), von Dokumentenverständnismodellen und von multimodalen großen Modellen unterstützen.

Dieser Datensatz umfasst ca. 270.250 Seiten PDF-Dokumente, davon 267.962 Seiten im Trainingsdatensatz und 2.288 Seiten im Evaluierungsdatensatz. Er deckt verschiedene Dokumenttypen ab, darunter wissenschaftliche Artikel, Archivdokumente, gescannte Buchtexte und historische Manuskripte. Die einzelnen Teilmengen sind überwiegend englischsprachig (91% bis 99%) und enthalten zudem eine geringe Anzahl an Dokumenten in Spanisch, Französisch, Deutsch, Italienisch, Latein und Indonesisch.

Datenverteilung

  • 00_documents (Allgemeine Dokumente): Insgesamt 232.790 Seiten (231.668 Schulungssitzungen / 1.122 Bewertungssitzungen), mit folgender Sprachverteilung: Englisch 94,46%, Spanisch 0,58%, Französisch 0,46%, Indonesisch 0,45% und Deutsch 0,42%.
  • 01_books (Bücher und Dokumente): Insgesamt 17.474 Seiten (16.575 Schulungsseiten / 899 Bewertungsseiten), mit folgender Sprachverteilung: Englisch 91,28%, Französisch 0,54%, Latein 0,31%, Deutsch 0,27% und Hindi 0,12%.
  • 02_loc_transcripts (Congressional Records/Redetranskripte): Insgesamt 9.989 Seiten (9.891 für Schulungszwecke / 98 für Evaluierungszwecke), mit folgender Sprachverteilung: Englisch 98,21%, Spanisch 0,59%, Französisch 0,46%, Deutsch 0,45% und Italienisch 0,11%.
  • 03_national_archives: Insgesamt 9.997 Seiten (9.828 Schulungen / 169 Bewertungen), mit folgender Sprachverteilung: Englisch 99,82%, Spanisch 0,12%, Französisch 0,02%, Schwedisch 0,01% und Deutsch 0,01%.

Im Vergleich zur Vorgängerversion olmOCR-mix-0225 verbessert olmOCR-mix-1025 die Annotationsqualität und die Dokumentenabdeckung weiter. Diese Version nutzt GPT-4.1 und eine optimierte Prompting-Strategie zur OCR-Generierung, wodurch die Lesereihenfolge des Textes besser mit dem ursprünglichen Layout übereinstimmt und die Struktur digitaler Inhalte erhalten bleibt. Zudem wurden mathematische Formeln im Datensatz standardisiert, Tabellen in HTML dargestellt und grundlegende Alt-Texte für Bilder hinzugefügt. Darüber hinaus wurden Beispiele aus Büchern, Archiven und handschriftlichen Dokumenten ergänzt, wodurch sich das Modell besser für ein robustes Training in dokumentenbasierten Szenarien eignet.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp