HyperAIHyperAI

Command Palette

Search for a command to run...

Zur einheitlichen Szenentexterkennung basierend auf Sequenzgenerierung

Taeho Kil Seonghyeon Kim Sukmin Seo Yoonsik Kim Daehee Kim

Zusammenfassung

Sequenzgenerierende Modelle haben in letzter Zeit erhebliche Fortschritte bei der Vereinheitlichung verschiedener Aufgaben im Bereich der Bildverarbeitung erzielt. Obwohl einige autoregressive Modelle vielversprechende Ergebnisse bei der end-to-end-Texterkennung erzielt haben, verwenden sie spezifische Detektionsformate und berücksichtigen dabei verschiedene Textformen nicht ausreichend und sind zudem auf eine begrenzte maximale Anzahl an Textinstanzen beschränkt. Um diese Einschränkungen zu überwinden, schlagen wir einen UNIfied Scene Text Spotter namens UNITS vor. Unser Modell vereint verschiedene Detektionsformate, einschließlich Vierecke und Polygone, und ermöglicht somit die Erkennung von Texten beliebiger Form. Darüber hinaus wenden wir ein Startpunkt-Prompting an, um dem Modell die Extraktion von Texten ab einem beliebigen Startpunkt zu ermöglichen, wodurch mehr Texte extrahiert werden können, als es während des Trainings gelernt wurde. Experimentelle Ergebnisse zeigen, dass unsere Methode eine konkurrenzfähige Leistung im Vergleich zu aktuellen State-of-the-Art-Methoden erzielt. Eine weitere Analyse belegt, dass UNITS mehr Texte extrahieren kann, als es während des Trainings gelernt hat. Den Quellcode unserer Methode stellen wir unter https://github.com/clovaai/units zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zur einheitlichen Szenentexterkennung basierend auf Sequenzgenerierung | Paper | HyperAI