Datum

vor einem Jahr

Größe

52.16 GB

Organisation

Veröffentlichungs-URL

github.com

Paper-URL

arxiv.org

Lizenz

CC BY 4.0

Datensatzmerkmale

Der Datensatz enthält etwa 250.000 Seiten PDF-Inhalte und deckt verschiedene Typen ab, beispielsweise wissenschaftliche Arbeiten, juristische Dokumente und Handbücher. Der Datensatz enthält nicht nur Textinhalte, sondern extrahiert auch die Koordinateninformationen hervorstechender Elemente (wie Textblöcke und Bilder) auf jeder Seite. Diese Informationen werden dynamisch in die Modelleingabeaufforderung eingefügt, wodurch die Halluzinationen des Modells erheblich reduziert werden. Dieser Datensatz kann zum Trainieren, Optimieren oder Bewerten Ihrer eigenen OCR-Dokumentenverarbeitungspipeline verwendet werden. Darüber hinaus wird der Datensatz mit GPT-4o annotiert, um eine hohe Qualität und Konsistenz der Annotationen sicherzustellen. Die Daten stammen aus einer Vielzahl von Quellen, darunter von öffentlichen Websites gecrawlte PDF-Dokumente und Bücher aus dem Internetarchiv. Der Datensatz enthält nicht nur Textinhalte, sondern extrahiert auch die Koordinateninformationen hervorstechender Elemente (wie Textblöcke und Bilder) auf jeder Seite. Diese Informationen werden dynamisch in die Modelleingabeaufforderung eingefügt, wodurch die Halluzinationen des Modells erheblich reduziert werden.

olmOCR-mix-0225.torrent

Seeding 1Wird heruntergeladen 0Abgeschlossen 279Gesamtdownloads 415

olmOCR-mix-0225/
- README.md
  1.87 KB
- README.txt
  3.73 KB

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden

Auf Discord diskutieren

Datum

vor einem Jahr

Größe

52.16 GB

Organisation

Veröffentlichungs-URL

github.com

Paper-URL

arxiv.org

Lizenz

CC BY 4.0

Datensatzmerkmale

olmOCR-mix-0225.torrent

Seeding 1Wird heruntergeladen 0Abgeschlossen 279Gesamtdownloads 415

olmOCR-mix-0225/
- README.md
  1.87 KB
- README.txt
  3.73 KB

Zugehörige Datensätze

Datensatz Für Kreative Aufgabenanweisungen Für Kreativprofis

vor 2 Monaten

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

vor 5 Monaten

TransPhy3D Transparent Reflection Synthesis Video Dataset

vor 5 Monaten

MCIF Multimodal Cross-Language Instruction Following Dataset

vor 6 Monaten

MCD-rPPG Multi-Kamera-Fernphotoplethysmographie-Datensatz

vor 6 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

olmOCR-mix-0225 Großer PDF-Dokumentendatensatz

Datensatzmerkmale

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

olmOCR-mix-0225 Großer PDF-Dokumentendatensatz

Datensatzmerkmale

Zugehörige Datensätze

Datensatz Für Kreative Aufgabenanweisungen Für Kreativprofis

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

TransPhy3D Transparent Reflection Synthesis Video Dataset

MCIF Multimodal Cross-Language Instruction Following Dataset

MCD-rPPG Multi-Kamera-Fernphotoplethysmographie-Datensatz

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

olmOCR-mix-0225 Großer PDF-Dokumentendatensatz

Datensatzmerkmale

Zugehörige Datensätze

Datensatz Für Kreative Aufgabenanweisungen Für Kreativprofis

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

TransPhy3D Transparent Reflection Synthesis Video Dataset

MCIF Multimodal Cross-Language Instruction Following Dataset

MCD-rPPG Multi-Kamera-Fernphotoplethysmographie-Datensatz

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

Datensatz Für Kreative Aufgabenanweisungen Für Kreativprofis

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

TransPhy3D Transparent Reflection Synthesis Video Dataset

MCIF Multimodal Cross-Language Instruction Following Dataset

MCD-rPPG Multi-Kamera-Fernphotoplethysmographie-Datensatz

Zugehörige Datensätze

Datensatz Für Kreative Aufgabenanweisungen Für Kreativprofis

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

TransPhy3D Transparent Reflection Synthesis Video Dataset

MCIF Multimodal Cross-Language Instruction Following Dataset

MCD-rPPG Multi-Kamera-Fernphotoplethysmographie-Datensatz