Command Palette
Search for a command to run...
LightOnOCR-mix-0126 Texttranskriptionsdatensatz
LightOnOCR-mix-0126 ist ein umfangreicher OCR-Texttranskriptionsdatensatz, der 2026 von LightOn veröffentlicht wurde. Die zugehörige Arbeit trägt den Titel „LightOnOCR: Ein 1B End-to-End-Mehrsprachiges Bild-Sprach-Modell für modernste OCR“ und zielt darauf ab, die Entwicklung von End-to-End-OCR- und Dokumentenverständnismodellen zu unterstützen, die natürlich geordnete, vollständige Seiten transkribierte Texte ausgeben.
Dieser Datensatz besteht aus zwei Teilen: einem Trainings- und einem Validierungsdatensatz. Jede Stichprobe entspricht dem Ergebnis der Texttranskription einer Dokumentseite. Der Inhalt umfasst den Seitentext in natürlicher Lesereihenfolge (Ausgabeformate sind unter anderem Markdown, LaTeX-Formeln und HTML-Tabellen) sowie die zugehörige strukturierte Auszeichnung, die verschiedene Arten von Seiteninhalten wie Absätze, Überschriften, Listen und Tabellen abdeckt.
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.