HyperAIHyperAI

Command Palette

Search for a command to run...

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

Auf Discord diskutieren

Datum

vor 3 Stunden

Organisation

Paper-URL

2601.14251

Lizenz

Other

LightOnOCR-mix-0126 ist ein umfangreicher OCR-Texttranskriptionsdatensatz, der 2026 von LightOn veröffentlicht wurde. Die zugehörige Arbeit trägt den Titel „LightOnOCR: Ein 1B End-to-End-Mehrsprachiges Bild-Sprach-Modell für modernste OCR“ und zielt darauf ab, die Entwicklung von End-to-End-OCR- und Dokumentenverständnismodellen zu unterstützen, die natürlich geordnete, vollständige Seiten transkribierte Texte ausgeben.

Dieser Datensatz besteht aus zwei Teilen: einem Trainings- und einem Validierungsdatensatz. Jede Stichprobe entspricht dem Ergebnis der Texttranskription einer Dokumentseite. Der Inhalt umfasst den Seitentext in natürlicher Lesereihenfolge (Ausgabeformate sind unter anderem Markdown, LaTeX-Formeln und HTML-Tabellen) sowie die zugehörige strukturierte Auszeichnung, die verschiedene Arten von Seiteninhalten wie Absätze, Überschriften, Listen und Tabellen abdeckt.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp