HyperAIHyperAI

Command Palette

Search for a command to run...

Benchmarking von Vision-Language-Modellen auf Optical Character Recognition in dynamischen Video-Umgebungen

Sankalp Nagaonkar Augustya Sharma Ashish Choithani Ashutosh Trivedi

Zusammenfassung

Diese Arbeit stellt einen Open-Source-Benchmark zur Bewertung von Vision-Language-Modellen (VLMs) bei Aufgaben des Optical Character Recognition (OCR) in dynamischen Videoumgebungen vor. Wir präsentieren einen sorgfältig zusammengestellten Datensatz mit 1.477 manuell annotierten Bildern, die sich über verschiedene Domänen erstrecken, darunter Code-Editoren, Nachrichtensendungen, YouTube-Videos und Werbespots. Drei state-of-the-art-VLMs – Claude-3, Gemini-1.5 und GPT-4o – werden gegenüber herkömmlichen OCR-Systemen wie EasyOCR und RapidOCR evaluiert. Als Bewertungsmetriken werden der Word Error Rate (WER), der Character Error Rate (CER) sowie die Genauigkeit herangezogen. Unsere Ergebnisse zeigen die Stärken und Grenzen von VLMs bei OCR-Aufgaben in Videos auf und belegen deren Potenzial, in vielen Szenarien herkömmliche OCR-Modelle zu übertrifft. Dennoch bestehen Herausforderungen wie Halluzinationen, Inhaltsicherheitsrichtlinien sowie Empfindlichkeit gegenüber verdecktem oder stilisiertem Text. Der Datensatz und das Benchmarking-Framework sind öffentlich zugänglich, um die weitere Forschung zu fördern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp