Command Palette
Search for a command to run...
LightOnOCR-mix-0126 Texttranskriptionsdatensatz
LightOnOCR-mix-0126 ist ein umfangreicher OCR-Texttranskriptionsdatensatz, der 2026 von LightOn veröffentlicht wurde. Zugehörige Forschungsarbeiten sind:LightOnOCR: Ein 1B-End-to-End-Mehrsprachigkeits-Bildverarbeitungsmodell für modernste OCRZiel ist die Bereitstellung einer Überwachung für durchgängige OCR- und Dokumentenverständnismodelle, die einen natürlich geordneten, vollständigen transkribierten Text ausgeben.
Dieser Datensatz besteht aus zwei Teilen: einem Trainings- und einem Validierungsdatensatz. Jede Stichprobe entspricht dem Ergebnis der Texttranskription einer Dokumentseite. Der Inhalt umfasst den Seitentext in natürlicher Lesereihenfolge (Ausgabeformate sind unter anderem Markdown, LaTeX-Formeln und HTML-Tabellen) sowie die zugehörige strukturierte Auszeichnung, die verschiedene Arten von Seiteninhalten wie Absätze, Überschriften, Listen und Tabellen abdeckt.
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.