HyperAIHyperAI

Command Palette

Search for a command to run...

olmOCR-mix-0225 Großer PDF-Dokumentendatensatz

Date

vor 10 Monaten

Size

52.16 GB

Organization

Allen Institute for Artificial Intelligence

Publish URL

github.com

Paper URL

arxiv.org

License

CC BY 4.0

Tags

olmOCR-mix-0225 ist ein umfangreicher, hochwertiger PDF-Dokumentendatensatz, der zum Trainieren und Optimieren von OCR-Modellen (Optical Character Recognition) entwickelt wurde. Dieser Datensatz wurde 2025 vom Allen Institute for AI veröffentlicht, und die zugehörigen Ergebnisse sind „olmOCR: Billionen von Token in PDFs mit Vision Language Models freischalten".

Datensatzmerkmale

Der Datensatz enthält etwa 250.000 Seiten PDF-Inhalte und deckt verschiedene Typen ab, beispielsweise wissenschaftliche Arbeiten, juristische Dokumente und Handbücher. Der Datensatz enthält nicht nur Textinhalte, sondern extrahiert auch die Koordinateninformationen hervorstechender Elemente (wie Textblöcke und Bilder) auf jeder Seite. Diese Informationen werden dynamisch in die Modelleingabeaufforderung eingefügt, wodurch die Halluzinationen des Modells erheblich reduziert werden. Dieser Datensatz kann zum Trainieren, Optimieren oder Bewerten Ihrer eigenen OCR-Dokumentenverarbeitungspipeline verwendet werden.

Darüber hinaus wird der Datensatz mit GPT-4o annotiert, um eine hohe Qualität und Konsistenz der Annotationen sicherzustellen. Die Daten stammen aus einer Vielzahl von Quellen, darunter von öffentlichen Websites gecrawlte PDF-Dokumente und Bücher aus dem Internetarchiv. Der Datensatz enthält nicht nur Textinhalte, sondern extrahiert auch die Koordinateninformationen hervorstechender Elemente (wie Textblöcke und Bilder) auf jeder Seite. Diese Informationen werden dynamisch in die Modelleingabeaufforderung eingefügt, wodurch die Halluzinationen des Modells erheblich reduziert werden.

olmOCR-mix-0225.torrent
Seeding 1Downloading 0Completed 254Total Downloads 382
  • olmOCR-mix-0225/
    • README.md
      1.87 KB
    • README.txt
      3.73 KB
      • data/
        • olmOCR-mix-0225.zip
          52.16 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp