Mehrschalige Vorhersage für die Erkennung von Szenentext

Die Erkennung von Szenentext (Scene Text Recognition, STR) ist bereits seit Jahren ein aktives Forschungsthema im Bereich der Computer Vision. Um dieses anspruchsvolle Problem anzugehen, wurden zahlreiche innovative Methoden vorgeschlagen, wobei die Integration linguistischer Kenntnisse in STR-Modelle in letzter Zeit zu einem dominierenden Trend geworden ist. In dieser Arbeit lassen wir uns erstmals von den jüngsten Fortschritten im Bereich des Vision Transformer (ViT) inspirieren, um ein konzeptionell einfaches, aber leistungsstarkes visuelles STR-Modell zu entwickeln, das auf ViT basiert und sowohl gegenüber rein visuellen Modellen als auch gegenüber sprachgestützten Ansätzen die bisherigen state-of-the-art-Leistungen übertreffen kann. Zur Integration linguistischer Kenntnisse schlagen wir zudem eine Multi-Granularity-Prediction-Strategie vor, die es ermöglicht, Informationen aus der Sprachmodalität auf implizite Weise in das Modell einzubringen: Neben der herkömmlichen Zeichen-Ebene werden hierbei subword-Repräsentationen (wie BPE und WordPiece), die in der NLP weit verbreitet sind, in den Ausgaberaum integriert, ohne dass ein separater Sprachmodell (Language Model, LM) eingesetzt wird. Das resultierende Verfahren (MGP-STR genannt) erreicht eine noch höhere Leistungsgrenze bei der STR. Insbesondere erzielt es eine durchschnittliche Erkennungsgenauigkeit von 93,35 % auf Standardbenchmarks. Der Quellcode ist unter https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/MGP-STR verfügbar.