Ensemble De Données De Référence Pour La Reconnaissance De Texte OCRBench-v2
OCRBench-v2 est un benchmark d'évaluation de reconnaissance optique de caractères (OCR) multimodal à grande échelle, publié en 2025 par l'Université des sciences et technologies de Huazhong, l'Université de technologie de Chine du Sud, ByteDance et d'autres institutions. Les résultats de l'étude sont les suivants :OCRBench v2 : une référence améliorée pour l'évaluation de grands modèles multimodaux sur la localisation et le raisonnement de textes visuels", qui vise à évaluer les capacités OCR des grands modèles multimodaux (LMM) dans différentes tâches liées au texte.
Cet ensemble de données est une mise à niveau à grande échelle basée sur OCRBench. Il comprend 10 000 paires de questions-réponses chinois-anglais vérifiées manuellement, sous forme de test public, ainsi qu'un test privé supplémentaire composé de 1 500 images de texte enrichi annotées manuellement, provenant de diverses sources, notamment des livres imprimés, des livres numériques, des documents numérisés et du contenu web. Les données couvrent 31 scénarios textuels typiques et 23 sous-tâches, classés en huit fonctions OCR principales : reconnaissance de texte, détection de texte, localisation de références textuelles, extraction de relations, analyse d'éléments, opérations mathématiques, compréhension visuelle et raisonnement cognitif.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.