vor 5 Monaten

Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski

Zusammenfassung

PDF-Dokumente bieten das Potenzial, Trilliarden neue, hochwertige Token für das Training von Sprachmodellen bereitzustellen. Allerdings weisen diese Dokumente eine große Vielfalt an Typen, Formaten und visuellen Layouts auf, was die Extraktion und treue Darstellung des zugrundeliegenden Inhalts für den Einsatz in Sprachmodellen herausfordernd macht. Traditionelle Open-Source-Tools liefern oft eine geringere Qualität bei der Extraktion im Vergleich zu Vision-Sprach-Modellen (VLMs), doch die Abhängigkeit von den besten VLMs kann prohibitiv teuer sein (z. B. über 6.240 USD pro Million PDF-Seiten bei GPT-4o) oder unpraktikabel, wenn die PDFs nicht an proprietäre APIs übermittelt werden können. Wir stellen olmOCR vor, ein Open-Source-Toolkit zur Verarbeitung von PDFs in sauberen, linearisierten reinen Texten in natürlicher Lesereihenfolge, wobei strukturierte Inhalte wie Abschnitte, Tabellen, Listen, Gleichungen und weitere Elemente erhalten bleiben. Unser Toolkit nutzt ein feingetuntes 7B-Vision-Sprach-Modell, das auf dem Datensatz olmOCR-mix-0225 trainiert wurde – einer Stichprobe aus 260.000 Seiten von über 100.000 gecrawlten PDFs mit vielfältigen Eigenschaften, darunter Grafiken, handschriftliche Texte und schlechte Scans. olmOCR ist für die großskalige Batch-Verarbeitung optimiert, skaliert flexibel auf unterschiedliche Hardware-Setup und ermöglicht die Konvertierung einer Million PDF-Seiten bereits für nur 176 USD. Um den Vergleich mit bestehenden Systemen zu erleichtern, führen wir außerdem olmOCR-Bench ein, eine sorgfältig zusammengestellte Sammlung von 1.400 PDFs, die viele Inhaltstypen abbilden, die selbst für die besten Tools und VLMs weiterhin herausfordernd sind, darunter Formeln, Tabellen, winzige Schriftarten, alte Scans und mehr. Wir stellen fest, dass olmOCR sogar die besten VLMs wie GPT-4o, Gemini Flash 2 und Qwen-2.5-VL übertrifft. Wir veröffentlichen alle Komponenten von olmOCR offen: unser feingetuntes VLM-Modell, den Trainingscode und -datensatz, eine effiziente Inferenzpipeline mit Unterstützung für vLLM- und SGLang-Backends sowie das Benchmark-Set olmOCR-Bench.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 5 Monaten

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 5 Monaten

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

olmOCR: Trillionen von Tokens in PDFs mit Vision-Language-Modellen entschlüsseln | Paper | HyperAI

Command Palette

olmOCR: Trillionen von Tokens in PDFs mit Vision-Language-Modellen entschlüsseln

Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

olmOCR: Trillionen von Tokens in PDFs mit Vision-Language-Modellen entschlüsseln

Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

olmOCR: Trillionen von Tokens in PDFs mit Vision-Language-Modellen entschlüsseln

Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters