vor 11 Tagen

CLIP4STR: Ein einfacher Baseline für die Szenentexterkennung mit vortrainiertem Vision-Sprache-Modell

Shuai Zhao, Ruijie Quan, Linchao Zhu, Yi Yang

Abstract

Vortrainierte Vision-Sprache-Modelle (VLMs) sind die de-facto-Grundmodelle für eine Vielzahl von Downstream-Aufgaben. Dennoch bevorzugen Methoden zur Szenentexterkennung weiterhin Backbone-Modelle, die auf einer einzigen Modalität – nämlich der visuellen Modalität – vortrainiert wurden, obwohl VLMs das Potenzial besitzen, als leistungsstarke Leser für Szenentexte zu dienen. Beispielsweise kann CLIP regulären (horizontalen) und irregulären (rotierten, gekrümmten, verschwommenen oder verdeckten) Text in Bildern robust erkennen. Ausgehend von diesen Vorteilen transformieren wir CLIP in einen Szenentextleser und stellen CLIP4STR vor, eine einfache, aber effektive STR-Methode, die auf den Bild- und Text-Encodern von CLIP basiert. Das Modell verfügt über zwei Encoder-Decoder-Zweige: einen visuellen Zweig und einen multimodalen Zweig. Der visuelle Zweig liefert eine erste Vorhersage basierend auf den visuellen Merkmalen, während der multimodale Zweig diese Vorhersage durch die Behandlung der Diskrepanz zwischen den visuellen Merkmalen und der Textsemantik verfeinert. Um die Fähigkeiten beider Zweige vollständig auszunutzen, entwickeln wir ein dualer Vorhersage-und-Verfeinerungs-Entschlüsselungsverfahren für die Inferenz. Wir skalieren CLIP4STR hinsichtlich Modellgröße, Vortrainingsdaten und Trainingsdaten und erreichen dabei state-of-the-art-Leistungen auf 13 STR-Benchmarks. Zudem wird eine umfassende empirische Studie vorgestellt, um das Verständnis der Anpassung von CLIP an die STR zu vertiefen. Unser Ansatz etabliert eine einfache, aber starke Baseline für zukünftige STR-Forschung mit VLMs.