Command Palette
Search for a command to run...
Ensemble De Données De Référence Pour La Reconnaissance De Texte OCRBench-v2
OCRBench-v2 est un benchmark d'évaluation de reconnaissance optique de caractères (OCR) multimodal à grande échelle, publié en 2025 par l'Université des sciences et technologies de Huazhong, l'Université de technologie de Chine du Sud, ByteDance et d'autres institutions. Les résultats de l'étude sont les suivants :OCRBench v2 : une référence améliorée pour l'évaluation de grands modèles multimodaux sur la localisation et le raisonnement de textes visuels", qui vise à évaluer les capacités OCR des grands modèles multimodaux (LMM) dans différentes tâches liées au texte.
Cet ensemble de données est une mise à niveau à grande échelle basée sur OCRBench. Il comprend 10 000 paires de questions-réponses chinois-anglais vérifiées manuellement, sous forme de test public, ainsi qu'un test privé supplémentaire composé de 1 500 images de texte enrichi annotées manuellement, provenant de diverses sources, notamment des livres imprimés, des livres numériques, des documents numérisés et du contenu web. Les données couvrent 31 scénarios textuels typiques et 23 sous-tâches, classés en huit fonctions OCR principales : reconnaissance de texte, détection de texte, localisation de références textuelles, extraction de relations, analyse d'éléments, opérations mathématiques, compréhension visuelle et raisonnement cognitif.
Créer de l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.