HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

OCRBench v2: Eine verbesserte Benchmark für die Bewertung großer multimodaler Modelle in der visuellen Textlokalisierung und -schließung

OCRBench v2: Eine verbesserte Benchmark für die Bewertung großer multimodaler Modelle in der visuellen Textlokalisierung und -schließung

Abstract

Die Bewertung der optischen Zeichenerkennung (OCR) von großen multimodalen Modellen (LMMs) hat zunehmendes Interesse geweckt. Bestehende Benchmarks haben die beeindruckende Leistung dieser Modelle bei der Texterkennung hervorgehoben; jedoch sind ihre Fähigkeiten bei bestimmten herausfordernden Aufgaben wie Textlokalisation, Extraktion handschriftlicher Inhalte und logischem Schließen noch unzureichend erforscht. Um diese Lücke zu schließen, stellen wir OCRBench v2 vor, eine umfangreiche zweisprachige Textzentrierte Benchmark mit aktuell der umfassendsten Aufgabensammlung (4-mal mehr Aufgaben als die vorherige multizentrische Benchmark OCRBench), der breitesten Abdeckung von Szenarien (31 verschiedene Szenarien) und gründlichen Evaluationsmetriken, einschließlich 10.000 menschlich verifizierter Frage-Antwort-Paare und einem hohen Anteil anspruchsvoller Proben. Darüber hinaus haben wir einen privaten Testdatensatz mit 1.500 manuell annotierten Bildern erstellt. Die konsistenten Bewertungstrends, die sowohl im öffentlichen als auch im privaten Testdatensatz beobachtet wurden, bestätigen die Zuverlässigkeit von OCRBench v2. Nach sorgfältiger Bewertung der neuesten LMMs feststellen wir, dass die meisten Modelle unter 50 Punkten liegen (von insgesamt 100 Punkten) und an fünf Arten von Einschränkungen leiden, darunter selten auftretende Texterkennung, feingranulare Wahrnehmung, Layoutwahrnehmung, Verarbeitung komplexer Elemente und logisches Schließen. Die Projektwebsite ist hier zu finden: https://99franklin.github.io/ocrbench_v2/

Code-Repositories

yuliang-liu/multimodalocr
Offiziell
pytorch
In GitHub erwähnt

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp