vor 8 Monaten

Fu Ling ; Kuang Zhebin ; Song Jiajun ; Huang Mingxin ; Yang Biao ; Li Yuzhe ; Zhu Linghao ; Luo Qidi ; Wang Xinyu ; Lu

Zusammenfassung

Die Bewertung der optischen Zeichenerkennung (OCR) von großen multimodalen Modellen (LMMs) hat zunehmendes Interesse geweckt. Bestehende Benchmarks haben die beeindruckende Leistung dieser Modelle bei der Texterkennung hervorgehoben; jedoch sind ihre Fähigkeiten bei bestimmten herausfordernden Aufgaben wie Textlokalisation, Extraktion handschriftlicher Inhalte und logischem Schließen noch unzureichend erforscht. Um diese Lücke zu schließen, stellen wir OCRBench v2 vor, eine umfangreiche zweisprachige Textzentrierte Benchmark mit aktuell der umfassendsten Aufgabensammlung (4-mal mehr Aufgaben als die vorherige multizentrische Benchmark OCRBench), der breitesten Abdeckung von Szenarien (31 verschiedene Szenarien) und gründlichen Evaluationsmetriken, einschließlich 10.000 menschlich verifizierter Frage-Antwort-Paare und einem hohen Anteil anspruchsvoller Proben. Darüber hinaus haben wir einen privaten Testdatensatz mit 1.500 manuell annotierten Bildern erstellt. Die konsistenten Bewertungstrends, die sowohl im öffentlichen als auch im privaten Testdatensatz beobachtet wurden, bestätigen die Zuverlässigkeit von OCRBench v2. Nach sorgfältiger Bewertung der neuesten LMMs feststellen wir, dass die meisten Modelle unter 50 Punkten liegen (von insgesamt 100 Punkten) und an fünf Arten von Einschränkungen leiden, darunter selten auftretende Texterkennung, feingranulare Wahrnehmung, Layoutwahrnehmung, Verarbeitung komplexer Elemente und logisches Schließen. Die Projektwebsite ist hier zu finden: https://99franklin.github.io/ocrbench_v2/

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

OCR

Visuelle Fragebeantwortung

Fu Ling ; Kuang Zhebin ; Song Jiajun ; Huang Mingxin ; Yang Biao ; Li Yuzhe ; Zhu Linghao ; Luo Qidi ; Wang Xinyu ; Lu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

OCR

Visuelle Fragebeantwortung

Fu Ling ; Kuang Zhebin ; Song Jiajun ; Huang Mingxin ; Yang Biao ; Li Yuzhe ; Zhu Linghao ; Luo Qidi ; Wang Xinyu ; Lu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

OCRBench v2: Eine verbesserte Benchmark für die Bewertung großer multimodaler Modelle in der visuellen Textlokalisierung und -schließung

Fu Ling ; Kuang Zhebin ; Song Jiajun ; Huang Mingxin ; Yang Biao ; Li Yuzhe ; Zhu Linghao ; Luo Qidi ; Wang Xinyu ; Lu15 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

OCRBench v2: Eine verbesserte Benchmark für die Bewertung großer multimodaler Modelle in der visuellen Textlokalisierung und -schließung

Fu Ling ; Kuang Zhebin ; Song Jiajun ; Huang Mingxin ; Yang Biao ; Li Yuzhe ; Zhu Linghao ; Luo Qidi ; Wang Xinyu ; Lu15 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

OCRBench v2: Eine verbesserte Benchmark für die Bewertung großer multimodaler Modelle in der visuellen Textlokalisierung und -schließung

Fu Ling ; Kuang Zhebin ; Song Jiajun ; Huang Mingxin ; Yang Biao ; Li Yuzhe ; Zhu Linghao ; Luo Qidi ; Wang Xinyu ; Lu15 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Fu Ling ; Kuang Zhebin ; Song Jiajun ; Huang Mingxin ; Yang Biao ; Li Yuzhe ; Zhu Linghao ; Luo Qidi ; Wang Xinyu ; Lu

Fu Ling ; Kuang Zhebin ; Song Jiajun ; Huang Mingxin ; Yang Biao ; Li Yuzhe ; Zhu Linghao ; Luo Qidi ; Wang Xinyu ; Lu

Fu Ling ; Kuang Zhebin ; Song Jiajun ; Huang Mingxin ; Yang Biao ; Li Yuzhe ; Zhu Linghao ; Luo Qidi ; Wang Xinyu ; Lu