Benchmarking von Vision-Language-Modellen auf Optical Character Recognition in dynamischen Video-Umgebungen

Diese Arbeit stellt einen Open-Source-Benchmark zur Bewertung von Vision-Language-Modellen (VLMs) bei Aufgaben des Optical Character Recognition (OCR) in dynamischen Videoumgebungen vor. Wir präsentieren einen sorgfältig zusammengestellten Datensatz mit 1.477 manuell annotierten Bildern, die sich über verschiedene Domänen erstrecken, darunter Code-Editoren, Nachrichtensendungen, YouTube-Videos und Werbespots. Drei state-of-the-art-VLMs – Claude-3, Gemini-1.5 und GPT-4o – werden gegenüber herkömmlichen OCR-Systemen wie EasyOCR und RapidOCR evaluiert. Als Bewertungsmetriken werden der Word Error Rate (WER), der Character Error Rate (CER) sowie die Genauigkeit herangezogen. Unsere Ergebnisse zeigen die Stärken und Grenzen von VLMs bei OCR-Aufgaben in Videos auf und belegen deren Potenzial, in vielen Szenarien herkömmliche OCR-Modelle zu übertrifft. Dennoch bestehen Herausforderungen wie Halluzinationen, Inhaltsicherheitsrichtlinien sowie Empfindlichkeit gegenüber verdecktem oder stilisiertem Text. Der Datensatz und das Benchmarking-Framework sind öffentlich zugänglich, um die weitere Forschung zu fördern.