Command Palette
Search for a command to run...
Warum Sie die echten Daten für die Szenentexterkennung verwenden sollten
Warum Sie die echten Daten für die Szenentexterkennung verwenden sollten
Vladimir Loginov
Zusammenfassung
Neuere Arbeiten auf dem Gebiet der Texterkennung haben die Erkennungsergebnisse auf neue Höchststände geführt. Doch lange Zeit zwang die mangelnde Verfügbarkeit großer, menschlich annotierter Datensätze natürlicher Textbilder Forscher dazu, synthetische Daten für das Training von Texterkennungsmodellen zu verwenden. Obwohl synthetische Datensätze sehr groß sind (die beiden bekanntesten, MJSynth und SynthTest, verfügen jeweils über mehrere Millionen Bilder), kann ihre Vielfalt im Vergleich zu natürlichen Datensätzen wie ICDAR und anderen unzureichend sein. Glücklicherweise verfügt der kürzlich veröffentlichte Texterkennungsannotierungsdatensatz für OpenImages V5 über eine vergleichbare Anzahl an Instanzen wie synthetische Datensätze und bietet zudem vielfältigere Beispiele. Wir haben diese Annotationen in Kombination mit einer Texterkennungshead-Architektur aus dem Yet Another Mask Text Spotter verwendet und konnten Ergebnisse erzielen, die mit den State-of-the-Art (SOTA)-Ergebnissen vergleichbar sind. Auf einigen Datensätzen haben wir sogar die vorherigen SOTA-Modelle übertroffen. In diesem Paper stellen wir zudem ein neues Texterkennungsmodell vor. Der Quellcode des Modells ist verfügbar.