HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

olmOCR: Trillionen von Tokens in PDFs mit Vision-Language-Modellen entschlüsseln

{Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski}

olmOCR: Trillionen von Tokens in PDFs mit Vision-Language-Modellen entschlüsseln

Abstract

PDF-Dokumente bieten das Potenzial, Trilliarden neue, hochwertige Token für das Training von Sprachmodellen bereitzustellen. Allerdings weisen diese Dokumente eine große Vielfalt an Typen, Formaten und visuellen Layouts auf, was die Extraktion und treue Darstellung des zugrundeliegenden Inhalts für den Einsatz in Sprachmodellen herausfordernd macht. Traditionelle Open-Source-Tools liefern oft eine geringere Qualität bei der Extraktion im Vergleich zu Vision-Sprach-Modellen (VLMs), doch die Abhängigkeit von den besten VLMs kann prohibitiv teuer sein (z. B. über 6.240 USD pro Million PDF-Seiten bei GPT-4o) oder unpraktikabel, wenn die PDFs nicht an proprietäre APIs übermittelt werden können. Wir stellen olmOCR vor, ein Open-Source-Toolkit zur Verarbeitung von PDFs in sauberen, linearisierten reinen Texten in natürlicher Lesereihenfolge, wobei strukturierte Inhalte wie Abschnitte, Tabellen, Listen, Gleichungen und weitere Elemente erhalten bleiben. Unser Toolkit nutzt ein feingetuntes 7B-Vision-Sprach-Modell, das auf dem Datensatz olmOCR-mix-0225 trainiert wurde – einer Stichprobe aus 260.000 Seiten von über 100.000 gecrawlten PDFs mit vielfältigen Eigenschaften, darunter Grafiken, handschriftliche Texte und schlechte Scans. olmOCR ist für die großskalige Batch-Verarbeitung optimiert, skaliert flexibel auf unterschiedliche Hardware-Setup und ermöglicht die Konvertierung einer Million PDF-Seiten bereits für nur 176 USD. Um den Vergleich mit bestehenden Systemen zu erleichtern, führen wir außerdem olmOCR-Bench ein, eine sorgfältig zusammengestellte Sammlung von 1.400 PDFs, die viele Inhaltstypen abbilden, die selbst für die besten Tools und VLMs weiterhin herausfordernd sind, darunter Formeln, Tabellen, winzige Schriftarten, alte Scans und mehr. Wir stellen fest, dass olmOCR sogar die besten VLMs wie GPT-4o, Gemini Flash 2 und Qwen-2.5-VL übertrifft. Wir veröffentlichen alle Komponenten von olmOCR offen: unser feingetuntes VLM-Modell, den Trainingscode und -datensatz, eine effiziente Inferenzpipeline mit Unterstützung für vLLM- und SGLang-Backends sowie das Benchmark-Set olmOCR-Bench.

Code-Repositories

allenai/olmocr
Offiziell
pytorch
In GitHub erwähnt

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
olmOCR: Trillionen von Tokens in PDFs mit Vision-Language-Modellen entschlüsseln | Forschungsarbeiten | HyperAI