HyperAIHyperAI
vor 8 Tagen

Zur einheitlichen Szenentexterkennung basierend auf Sequenzgenerierung

Taeho Kil, Seonghyeon Kim, Sukmin Seo, Yoonsik Kim, Daehee Kim
Zur einheitlichen Szenentexterkennung basierend auf Sequenzgenerierung
Abstract

Sequenzgenerierende Modelle haben in letzter Zeit erhebliche Fortschritte bei der Vereinheitlichung verschiedener Aufgaben im Bereich der Bildverarbeitung erzielt. Obwohl einige autoregressive Modelle vielversprechende Ergebnisse bei der end-to-end-Texterkennung erzielt haben, verwenden sie spezifische Detektionsformate und berücksichtigen dabei verschiedene Textformen nicht ausreichend und sind zudem auf eine begrenzte maximale Anzahl an Textinstanzen beschränkt. Um diese Einschränkungen zu überwinden, schlagen wir einen UNIfied Scene Text Spotter namens UNITS vor. Unser Modell vereint verschiedene Detektionsformate, einschließlich Vierecke und Polygone, und ermöglicht somit die Erkennung von Texten beliebiger Form. Darüber hinaus wenden wir ein Startpunkt-Prompting an, um dem Modell die Extraktion von Texten ab einem beliebigen Startpunkt zu ermöglichen, wodurch mehr Texte extrahiert werden können, als es während des Trainings gelernt wurde. Experimentelle Ergebnisse zeigen, dass unsere Methode eine konkurrenzfähige Leistung im Vergleich zu aktuellen State-of-the-Art-Methoden erzielt. Eine weitere Analyse belegt, dass UNITS mehr Texte extrahieren kann, als es während des Trainings gelernt hat. Den Quellcode unserer Methode stellen wir unter https://github.com/clovaai/units zur Verfügung.

Zur einheitlichen Szenentexterkennung basierend auf Sequenzgenerierung | Neueste Forschungsarbeiten | HyperAI