Command Palette
Search for a command to run...
olmOCR-mix-0225 Großer PDF-Dokumentendatensatz
Date
Size
Publish URL
Paper URL
License
CC BY 4.0
Tags
olmOCR-mix-0225 ist ein umfangreicher, hochwertiger PDF-Dokumentendatensatz, der zum Trainieren und Optimieren von OCR-Modellen (Optical Character Recognition) entwickelt wurde. Dieser Datensatz wurde 2025 vom Allen Institute for AI veröffentlicht, und die zugehörigen Ergebnisse sind „olmOCR: Billionen von Token in PDFs mit Vision Language Models freischalten".
Datensatzmerkmale
Der Datensatz enthält etwa 250.000 Seiten PDF-Inhalte und deckt verschiedene Typen ab, beispielsweise wissenschaftliche Arbeiten, juristische Dokumente und Handbücher. Der Datensatz enthält nicht nur Textinhalte, sondern extrahiert auch die Koordinateninformationen hervorstechender Elemente (wie Textblöcke und Bilder) auf jeder Seite. Diese Informationen werden dynamisch in die Modelleingabeaufforderung eingefügt, wodurch die Halluzinationen des Modells erheblich reduziert werden. Dieser Datensatz kann zum Trainieren, Optimieren oder Bewerten Ihrer eigenen OCR-Dokumentenverarbeitungspipeline verwendet werden.
Darüber hinaus wird der Datensatz mit GPT-4o annotiert, um eine hohe Qualität und Konsistenz der Annotationen sicherzustellen. Die Daten stammen aus einer Vielzahl von Quellen, darunter von öffentlichen Websites gecrawlte PDF-Dokumente und Bücher aus dem Internetarchiv. Der Datensatz enthält nicht nur Textinhalte, sondern extrahiert auch die Koordinateninformationen hervorstechender Elemente (wie Textblöcke und Bilder) auf jeder Seite. Diese Informationen werden dynamisch in die Modelleingabeaufforderung eingefügt, wodurch die Halluzinationen des Modells erheblich reduziert werden.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.