HyperAIHyperAI

Command Palette

Search for a command to run...

CLIP4STR: Ein einfacher Baseline für die Szenentexterkennung mit vortrainiertem Vision-Sprache-Modell

Shuai Zhao Ruijie Quan Linchao Zhu Yi Yang

Zusammenfassung

Vortrainierte Vision-Sprache-Modelle (VLMs) sind die de-facto-Grundmodelle für eine Vielzahl von Downstream-Aufgaben. Dennoch bevorzugen Methoden zur Szenentexterkennung weiterhin Backbone-Modelle, die auf einer einzigen Modalität – nämlich der visuellen Modalität – vortrainiert wurden, obwohl VLMs das Potenzial besitzen, als leistungsstarke Leser für Szenentexte zu dienen. Beispielsweise kann CLIP regulären (horizontalen) und irregulären (rotierten, gekrümmten, verschwommenen oder verdeckten) Text in Bildern robust erkennen. Ausgehend von diesen Vorteilen transformieren wir CLIP in einen Szenentextleser und stellen CLIP4STR vor, eine einfache, aber effektive STR-Methode, die auf den Bild- und Text-Encodern von CLIP basiert. Das Modell verfügt über zwei Encoder-Decoder-Zweige: einen visuellen Zweig und einen multimodalen Zweig. Der visuelle Zweig liefert eine erste Vorhersage basierend auf den visuellen Merkmalen, während der multimodale Zweig diese Vorhersage durch die Behandlung der Diskrepanz zwischen den visuellen Merkmalen und der Textsemantik verfeinert. Um die Fähigkeiten beider Zweige vollständig auszunutzen, entwickeln wir ein dualer Vorhersage-und-Verfeinerungs-Entschlüsselungsverfahren für die Inferenz. Wir skalieren CLIP4STR hinsichtlich Modellgröße, Vortrainingsdaten und Trainingsdaten und erreichen dabei state-of-the-art-Leistungen auf 13 STR-Benchmarks. Zudem wird eine umfassende empirische Studie vorgestellt, um das Verständnis der Anpassung von CLIP an die STR zu vertiefen. Unser Ansatz etabliert eine einfache, aber starke Baseline für zukünftige STR-Forschung mit VLMs.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp