Command Palette
Search for a command to run...
OCRBench v2 : Une Amélioration de la Base de Référence pour l’Évaluation des Grands Modèles Multimodaux en Localisation et Raisonnement de Texte Visuel

Résumé
L'évaluation des capacités de reconnaissance optique de caractères (OCR) des grands modèles multimodaux (LMMs) suscite un intérêt croissant. Les benchmarks existants ont mis en évidence les performances impressionnantes des LMMs en matière de reconnaissance de texte ; cependant, leurs aptitudes dans certaines tâches complexes, telles que la localisation de texte, l'extraction de contenu manuscrit et le raisonnement logique, restent sous-explorées. Pour combler cette lacune, nous présentons OCRBench v2, une base de référence bilingue à grande échelle centrée sur le texte, qui propose actuellement l'ensemble de tâches le plus complet (4 fois plus de tâches que le précédent benchmark multi-scène OCRBench), la couverture la plus large de scénarios (31 scénarios diversifiés) et des métriques d'évaluation approfondies, avec 10 000 paires question-réponse vérifiées par des humains et une forte proportion d'échantillons difficiles. De plus, nous avons construit un ensemble de tests privé composé de 1 500 images annotées manuellement. Les tendances d'évaluation cohérentes observées dans les ensembles de tests public et privé valident la fiabilité d'OCRBench v2. Après avoir minutieusement évalué les LMMs les plus avancés, nous constatons que la plupart des LMMs obtiennent une note inférieure à 50 (sur un total de 100) et souffrent de cinq types de limitations, notamment : la reconnaissance de texte moins fréquemment rencontrée, la perception fine-grainée, la perception du layout, l'analyse d'éléments complexes et le raisonnement logique. Le site web du projet est disponible à l'adresse suivante : https://99franklin.github.io/ocrbench_v2/
Dépôts de code
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.