Datum

vor 8 Monaten

Größe

71.74 GB

Organisation

Paper-URL

2502.18443

Lizenz

Other

Datenverteilung

00_documents (Allgemeine Dokumente): Insgesamt 232.790 Seiten (231.668 Schulungssitzungen / 1.122 Bewertungssitzungen), mit folgender Sprachverteilung: Englisch 94,46%, Spanisch 0,58%, Französisch 0,46%, Indonesisch 0,45% und Deutsch 0,42%.
01_books (Bücher und Dokumente): Insgesamt 17.474 Seiten (16.575 Schulungsseiten / 899 Bewertungsseiten), mit folgender Sprachverteilung: Englisch 91,28%, Französisch 0,54%, Latein 0,31%, Deutsch 0,27% und Hindi 0,12%.
02_loc_transcripts (Congressional Records/Redetranskripte): Insgesamt 9.989 Seiten (9.891 für Schulungszwecke / 98 für Evaluierungszwecke), mit folgender Sprachverteilung: Englisch 98,21%, Spanisch 0,59%, Französisch 0,46%, Deutsch 0,45% und Italienisch 0,11%.
03_national_archives: Insgesamt 9.997 Seiten (9.828 Schulungen / 169 Bewertungen), mit folgender Sprachverteilung: Englisch 99,82%, Spanisch 0,12%, Französisch 0,02%, Schwedisch 0,01% und Deutsch 0,01%. Im Vergleich zur Vorgängerversion olmOCR-mix-0225 verbessert olmOCR-mix-1025 die Annotationsqualität und die Dokumentenabdeckung weiter. Diese Version nutzt GPT-4.1 und eine optimierte Prompting-Strategie zur OCR-Generierung, wodurch die Lesereihenfolge des Textes besser mit dem ursprünglichen Layout übereinstimmt und die Struktur digitaler Inhalte erhalten bleibt. Zudem wurden mathematische Formeln im Datensatz standardisiert, Tabellen in HTML dargestellt und grundlegende Alt-Texte für Bilder hinzugefügt. Darüber hinaus wurden Beispiele aus Büchern, Archiven und handschriftlichen Dokumenten ergänzt, wodurch sich das Modell besser für ein robustes Training in dokumentenbasierten Szenarien eignet.

olmOCR-mix-1025.torrent

Seeding 1Wird heruntergeladen 0Abgeschlossen 8Gesamtdownloads 101

olmOCR-mix-1025/
- README.md
  2.78 KB
- README.txt
  5.56 KB

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

vor 5 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden

Auf Discord diskutieren

Datum

vor 8 Monaten

Größe

71.74 GB

Organisation

Paper-URL

2502.18443

Lizenz

Other

Datenverteilung

00_documents (Allgemeine Dokumente): Insgesamt 232.790 Seiten (231.668 Schulungssitzungen / 1.122 Bewertungssitzungen), mit folgender Sprachverteilung: Englisch 94,46%, Spanisch 0,58%, Französisch 0,46%, Indonesisch 0,45% und Deutsch 0,42%.
01_books (Bücher und Dokumente): Insgesamt 17.474 Seiten (16.575 Schulungsseiten / 899 Bewertungsseiten), mit folgender Sprachverteilung: Englisch 91,28%, Französisch 0,54%, Latein 0,31%, Deutsch 0,27% und Hindi 0,12%.
02_loc_transcripts (Congressional Records/Redetranskripte): Insgesamt 9.989 Seiten (9.891 für Schulungszwecke / 98 für Evaluierungszwecke), mit folgender Sprachverteilung: Englisch 98,21%, Spanisch 0,59%, Französisch 0,46%, Deutsch 0,45% und Italienisch 0,11%.
03_national_archives: Insgesamt 9.997 Seiten (9.828 Schulungen / 169 Bewertungen), mit folgender Sprachverteilung: Englisch 99,82%, Spanisch 0,12%, Französisch 0,02%, Schwedisch 0,01% und Deutsch 0,01%. Im Vergleich zur Vorgängerversion olmOCR-mix-0225 verbessert olmOCR-mix-1025 die Annotationsqualität und die Dokumentenabdeckung weiter. Diese Version nutzt GPT-4.1 und eine optimierte Prompting-Strategie zur OCR-Generierung, wodurch die Lesereihenfolge des Textes besser mit dem ursprünglichen Layout übereinstimmt und die Struktur digitaler Inhalte erhalten bleibt. Zudem wurden mathematische Formeln im Datensatz standardisiert, Tabellen in HTML dargestellt und grundlegende Alt-Texte für Bilder hinzugefügt. Darüber hinaus wurden Beispiele aus Büchern, Archiven und handschriftlichen Dokumenten ergänzt, wodurch sich das Modell besser für ein robustes Training in dokumentenbasierten Szenarien eignet.

olmOCR-mix-1025.torrent

Seeding 1Wird heruntergeladen 0Abgeschlossen 8Gesamtdownloads 101

olmOCR-mix-1025/
- README.md
  2.78 KB
- README.txt
  5.56 KB

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

vor 5 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

olmOCR-mix-1025 Dokumentenerkennungsdatensatz

Datenverteilung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

olmOCR-mix-1025 Dokumentenerkennungsdatensatz

Datenverteilung

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

olmOCR-mix-1025 Dokumentenerkennungsdatensatz

Datenverteilung

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

KI mit KI entwickeln

HyperAI Newsletters

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

LightOnOCR-mix-0126 Texttranskriptionsdatensatz