il y a 4 mois

OCRBench v2 : Une Amélioration de la Base de Référence pour l’Évaluation des Grands Modèles Multimodaux en Localisation et Raisonnement de Texte Visuel

Fu Ling ; Kuang Zhebin ; Song Jiajun ; Huang Mingxin ; Yang Biao ; Li Yuzhe ; Zhu Linghao ; Luo Qidi ; Wang Xinyu ; Lu

Résumé

L'évaluation des capacités de reconnaissance optique de caractères (OCR) des grands modèles multimodaux (LMMs) suscite un intérêt croissant. Les benchmarks existants ont mis en évidence les performances impressionnantes des LMMs en matière de reconnaissance de texte ; cependant, leurs aptitudes dans certaines tâches complexes, telles que la localisation de texte, l'extraction de contenu manuscrit et le raisonnement logique, restent sous-explorées. Pour combler cette lacune, nous présentons OCRBench v2, une base de référence bilingue à grande échelle centrée sur le texte, qui propose actuellement l'ensemble de tâches le plus complet (4 fois plus de tâches que le précédent benchmark multi-scène OCRBench), la couverture la plus large de scénarios (31 scénarios diversifiés) et des métriques d'évaluation approfondies, avec 10 000 paires question-réponse vérifiées par des humains et une forte proportion d'échantillons difficiles. De plus, nous avons construit un ensemble de tests privé composé de 1 500 images annotées manuellement. Les tendances d'évaluation cohérentes observées dans les ensembles de tests public et privé valident la fiabilité d'OCRBench v2. Après avoir minutieusement évalué les LMMs les plus avancés, nous constatons que la plupart des LMMs obtiennent une note inférieure à 50 (sur un total de 100) et souffrent de cinq types de limitations, notamment : la reconnaissance de texte moins fréquemment rencontrée, la perception fine-grainée, la perception du layout, l'analyse d'éléments complexes et le raisonnement logique. Le site web du projet est disponible à l'adresse suivante : https://99franklin.github.io/ocrbench_v2/

Dépôts de code

yuliang-liu/multimodalocr

Officiel

pytorch

Mentionné dans GitHub

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette