HyperAI

CC-OCR-Texterkennungsdatensatz

Datum

vor 3 Monaten

Größe

1.49 GB

Organisation

Huazhong Universität für Wissenschaft und Technologie
Technische Universität Südchina

Veröffentlichungs-URL

github.com

Der CC-OCR-Datensatz wurde 2024 gemeinsam von der Alibaba Group, der Huazhong University of Science and Technology und der South China University of Technology entwickelt, um einen umfassenden und anspruchsvollen Benchmark für die Bewertung der Leistung großer multimodaler Modelle bei Texterkennungsaufgaben (OCR) bereitzustellen.CC-OCR: Ein umfassender und anspruchsvoller OCR-Benchmark zur Bewertung großer multimodaler Modelle im Bereich der Alphabetisierung".

Der Datensatz deckt vier Kernaufgaben ab: Lesen von Texten in mehreren Szenen, Lesen von Texten in mehreren Sprachen, Dokumentanalyse und Extraktion wichtiger Informationen und enthält 39 Teilmengen und 7.058 vollständig annotierte Bilder. Die Einführung von CC-OCR schließt die Lücke bei der Bewertung aktueller multimodaler Modelle in komplexen Strukturen und feinkörnigen visuellen Herausforderungen und ist von großer Bedeutung für die Förderung des Fortschritts multimodaler Modelle in praktischen Anwendungen.

CC-OCR.torrent
Seeding 1Herunterladen 1Abgeschlossen 52Gesamtdownloads 94
  • CC-OCR/
    • README.md
      1.52 KB
    • README.txt
      3.04 KB
      • data/
        • CC-OCR.zip
          1.49 GB