HyperAIHyperAI
vor 3 Monaten

Ein Verfahren zur Erkennung von Text mit beliebigen Formen in natürlichen Szenen, das das Text Spotting verbessert

Qitong Wang, Yi Zheng, Margrit Betke
Ein Verfahren zur Erkennung von Text mit beliebigen Formen in natürlichen Szenen, das das Text Spotting verbessert
Abstract

Die Erkennung von Text in Bildern natürlicher Szenen, wie etwa Autobahnzeichen oder Geschäftsschilder, ist besonders herausfordernd, wenn der Text im Bild perspektivisch verzerrt ist oder die Buchstaben künstlerisch verformt wurden. Wir stellen einen pipelinebasierten Text-Spotting-Framework vor, der sowohl die Erkennung als auch die Erkennung von Text in verschiedenen Schriftarten, Formen und Orientierungen in natürlichen Szenenbildern mit komplexen Hintergründen ermöglicht. Der Hauptbeitrag unserer Arbeit ist die Textdetektionskomponente, die wir UHT (UNet, Heatmap, Textfill) nennen. UHT verwendet eine UNet zur Berechnung von Heatmaps für potenzielle Textregionen und einen Textfill-Algorithmus zur Erzeugung enger polygonaler Umrisse um jedes Wort innerhalb der kandidativen Textregionen. Unser Verfahren trainiert die UNet mit Groundtruth-Heatmaps, die wir aus den von den Groundtruth-Anmerkungen bereitgestellten Text-Bounding-Polygonen ableiten. Unser Text-Spotting-Framework, UHTA genannt, kombiniert UHT mit dem aktuellen Stand der Technik im Bereich der Texterkennung, dem System ASTER. Experimente an vier herausfordernden und öffentlich verfügbaren Datensätzen für Szenentextdetektion (Total-Text, SCUT-CTW1500, MSRA-TD500 und COCO-Text) zeigen die Wirksamkeit und Generalisierungsfähigkeit von UHT bei der Detektion nicht nur mehrsprachiger (potenziell rotierter) gerader, sondern auch gekrümmter Texte in mehreren Schriftsystemen. Unsere experimentellen Ergebnisse von UHTA auf dem Total-Text-Datensatz zeigen, dass UHTA vier state-of-the-art-Text-Spotting-Frameworks mindestens um 9,1 Prozentpunkte im F-Maß übertrifft, was darauf hindeutet, dass UHTA als vollständiges System zur Textdetektion und -erkennung in realen Anwendungen eingesetzt werden kann.