HyperAIHyperAI

Command Palette

Search for a command to run...

Ein Verfahren zur Erkennung von Text mit beliebigen Formen in natürlichen Szenen, das das Text Spotting verbessert

Qitong Wang Yi Zheng Margrit Betke

Zusammenfassung

Die Erkennung von Text in Bildern natürlicher Szenen, wie etwa Autobahnzeichen oder Geschäftsschilder, ist besonders herausfordernd, wenn der Text im Bild perspektivisch verzerrt ist oder die Buchstaben künstlerisch verformt wurden. Wir stellen einen pipelinebasierten Text-Spotting-Framework vor, der sowohl die Erkennung als auch die Erkennung von Text in verschiedenen Schriftarten, Formen und Orientierungen in natürlichen Szenenbildern mit komplexen Hintergründen ermöglicht. Der Hauptbeitrag unserer Arbeit ist die Textdetektionskomponente, die wir UHT (UNet, Heatmap, Textfill) nennen. UHT verwendet eine UNet zur Berechnung von Heatmaps für potenzielle Textregionen und einen Textfill-Algorithmus zur Erzeugung enger polygonaler Umrisse um jedes Wort innerhalb der kandidativen Textregionen. Unser Verfahren trainiert die UNet mit Groundtruth-Heatmaps, die wir aus den von den Groundtruth-Anmerkungen bereitgestellten Text-Bounding-Polygonen ableiten. Unser Text-Spotting-Framework, UHTA genannt, kombiniert UHT mit dem aktuellen Stand der Technik im Bereich der Texterkennung, dem System ASTER. Experimente an vier herausfordernden und öffentlich verfügbaren Datensätzen für Szenentextdetektion (Total-Text, SCUT-CTW1500, MSRA-TD500 und COCO-Text) zeigen die Wirksamkeit und Generalisierungsfähigkeit von UHT bei der Detektion nicht nur mehrsprachiger (potenziell rotierter) gerader, sondern auch gekrümmter Texte in mehreren Schriftsystemen. Unsere experimentellen Ergebnisse von UHTA auf dem Total-Text-Datensatz zeigen, dass UHTA vier state-of-the-art-Text-Spotting-Frameworks mindestens um 9,1 Prozentpunkte im F-Maß übertrifft, was darauf hindeutet, dass UHTA als vollständiges System zur Textdetektion und -erkennung in realen Anwendungen eingesetzt werden kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein Verfahren zur Erkennung von Text mit beliebigen Formen in natürlichen Szenen, das das Text Spotting verbessert | Paper | HyperAI