HyperAI

olmOCR-mix-0225 Großer PDF-Dokumentendatensatz

Datum

vor 3 Monaten

Größe

52.16 GB

Organisation

Allen Institute for Artificial Intelligence

Veröffentlichungs-URL

github.com

Lizenz

CC BY 4.0

olmOCR-mix-0225 ist ein umfangreicher, hochwertiger PDF-Dokumentendatensatz, der zum Trainieren und Optimieren von OCR-Modellen (Optical Character Recognition) entwickelt wurde. Dieser Datensatz wurde 2025 vom Allen Institute for AI veröffentlicht, und die zugehörigen Ergebnisse sind „olmOCR: Billionen von Token in PDFs mit Vision Language Models freischalten".

Datensatzmerkmale

Der Datensatz enthält etwa 250.000 Seiten PDF-Inhalte und deckt verschiedene Typen ab, beispielsweise wissenschaftliche Arbeiten, juristische Dokumente und Handbücher. Der Datensatz enthält nicht nur Textinhalte, sondern extrahiert auch die Koordinateninformationen hervorstechender Elemente (wie Textblöcke und Bilder) auf jeder Seite. Diese Informationen werden dynamisch in die Modelleingabeaufforderung eingefügt, wodurch die Halluzinationen des Modells erheblich reduziert werden. Dieser Datensatz kann zum Trainieren, Optimieren oder Bewerten Ihrer eigenen OCR-Dokumentenverarbeitungspipeline verwendet werden.

Darüber hinaus wird der Datensatz mit GPT-4o annotiert, um eine hohe Qualität und Konsistenz der Annotationen sicherzustellen. Die Daten stammen aus einer Vielzahl von Quellen, darunter von öffentlichen Websites gecrawlte PDF-Dokumente und Bücher aus dem Internetarchiv. Der Datensatz enthält nicht nur Textinhalte, sondern extrahiert auch die Koordinateninformationen hervorstechender Elemente (wie Textblöcke und Bilder) auf jeder Seite. Diese Informationen werden dynamisch in die Modelleingabeaufforderung eingefügt, wodurch die Halluzinationen des Modells erheblich reduziert werden.

olmOCR-mix-0225.torrent
Seeding 2Herunterladen 1Abgeschlossen 79Gesamtdownloads 98
  • olmOCR-mix-0225/
    • README.md
      1.87 KB
    • README.txt
      3.73 KB
      • data/
        • olmOCR-mix-0225.zip
          52.16 GB