HyperAI

Ensemble De Données De Référence Pour La Reconnaissance De Texte OCRBench

Date

il y a 2 jours

Taille

60.8 MB

Organisation

Université des sciences et technologies de Huazhong

URL de publication

huggingface.co

OCRBench est un jeu de données de référence pour la reconnaissance de texte publié par l'Université des sciences et technologies de Huazhong et Microsoft Research. Ce jeu de données constitue un benchmark d'évaluation pour la reconnaissance optique de caractères (OCR) multimodale à grande échelle. Les résultats de l'étude sont les suivants :OCRBench : Sur le mystère caché de l'OCR dans les grands modèles multimodaux", qui vise à évaluer les capacités OCR des grands modèles multimodaux (LMM) dans différentes tâches liées au texte.

L'ensemble de données contient 1 000 paires de questions-réponses sélectionnées et corrigées manuellement à partir de cinq tâches représentatives liées au texte : reconnaissance de texte, centrage du texte de la scène, orientation du document, extraction d'informations clés (KIE) et expressions mathématiques manuscrites (HMER).

Les données comprennent :

  • Reconnaissance de texte 300 images (y compris des types de texte réguliers, irréguliers, artistiques et autres).
  • Scène Texte Centrée Visuelle Réponse à 200 Questions.
  • Questionnaire visuel guidé par document répondant à 200 questions.
  • 200 questions pour extraire des informations clés.
  • Reconnaissance d'expressions mathématiques manuscrites 100 images de l'ensemble de données HME100k.
OCRBench.torrent
Partage 1Téléchargement 0Terminés 0Téléchargements totaux 1
  • OCRBench/
    • README.md
      1.65 KB
    • README.txt
      3.3 KB
      • data/
        • OCRBench.zip
          60.8 MB