Command Palette
Search for a command to run...
olmOCR: Trillionen von Tokens in PDFs mit Vision-Language-Modellen entschlüsseln
{Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski}

Abstract
PDF-Dokumente bieten das Potenzial, Trilliarden neue, hochwertige Token für das Training von Sprachmodellen bereitzustellen. Allerdings weisen diese Dokumente eine große Vielfalt an Typen, Formaten und visuellen Layouts auf, was die Extraktion und treue Darstellung des zugrundeliegenden Inhalts für den Einsatz in Sprachmodellen herausfordernd macht. Traditionelle Open-Source-Tools liefern oft eine geringere Qualität bei der Extraktion im Vergleich zu Vision-Sprach-Modellen (VLMs), doch die Abhängigkeit von den besten VLMs kann prohibitiv teuer sein (z. B. über 6.240 USD pro Million PDF-Seiten bei GPT-4o) oder unpraktikabel, wenn die PDFs nicht an proprietäre APIs übermittelt werden können. Wir stellen olmOCR vor, ein Open-Source-Toolkit zur Verarbeitung von PDFs in sauberen, linearisierten reinen Texten in natürlicher Lesereihenfolge, wobei strukturierte Inhalte wie Abschnitte, Tabellen, Listen, Gleichungen und weitere Elemente erhalten bleiben. Unser Toolkit nutzt ein feingetuntes 7B-Vision-Sprach-Modell, das auf dem Datensatz olmOCR-mix-0225 trainiert wurde – einer Stichprobe aus 260.000 Seiten von über 100.000 gecrawlten PDFs mit vielfältigen Eigenschaften, darunter Grafiken, handschriftliche Texte und schlechte Scans. olmOCR ist für die großskalige Batch-Verarbeitung optimiert, skaliert flexibel auf unterschiedliche Hardware-Setup und ermöglicht die Konvertierung einer Million PDF-Seiten bereits für nur 176 USD. Um den Vergleich mit bestehenden Systemen zu erleichtern, führen wir außerdem olmOCR-Bench ein, eine sorgfältig zusammengestellte Sammlung von 1.400 PDFs, die viele Inhaltstypen abbilden, die selbst für die besten Tools und VLMs weiterhin herausfordernd sind, darunter Formeln, Tabellen, winzige Schriftarten, alte Scans und mehr. Wir stellen fest, dass olmOCR sogar die besten VLMs wie GPT-4o, Gemini Flash 2 und Qwen-2.5-VL übertrifft. Wir veröffentlichen alle Komponenten von olmOCR offen: unser feingetuntes VLM-Modell, den Trainingscode und -datensatz, eine effiziente Inferenzpipeline mit Unterstützung für vLLM- und SGLang-Backends sowie das Benchmark-Set olmOCR-Bench.
Code-Repositories
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.