HyperAIHyperAI

Command Palette

Search for a command to run...

Szenentexterkennung durch ganzheitliche, mehrkanalige Vorhersage

Cong Yao Xiang Bai Nong Sang Xinyu Zhou Shuchang Zhou Zhimin Cao

Zusammenfassung

Kürzlich ist die Erkennung von Szene-Text zu einem aktiven Forschungsthema in der Computer Vision und Dokumentanalyse geworden, aufgrund ihrer großen Bedeutung und erheblichen Herausforderungen. Die meisten existierenden Methoden erkennen jedoch Text innerhalb lokaler Bereiche, typischerweise durch das Extrahieren von Kandidaten auf Zeichen-, Wort- oder Zeilenebene, gefolgt von der Aggregation dieser Kandidaten und der Elimination falsch positiver Ergebnisse. Dies schließt potentiell den Einfluss breit angelegter und langer kontextueller Hinweise in der Szene aus. Um den reichen Informationen im gesamten natürlichen Bild vollständig nutzen zu können, schlagen wir vor, den Text in einer ganzheitlichen Weise zu lokalisieren, indem die Erkennung von Szene-Text als ein Problem der semantischen Segmentierung betrachtet wird. Der vorgeschlagene Algorithmus arbeitet direkt mit kompletten Bildern und erstellt globale, pixelgenaue Vorhersagemaps, in denen die Erkennungen anschließend gebildet werden. Um die Eigenschaften des Textes besser zu nutzen, werden drei Arten von Informationen bezüglich des Textbereichs, einzelner Zeichen und deren Beziehungen mit einem einzigen Modell eines Fully Convolutional Networks (FCN) geschätzt. Mit diesen Vorhersagen der Texteigenschaften kann der vorgeschlagene Algorithmus gleichzeitig horizontalen, mehrorientierten und gekrümmten Text in realen natürlichen Bildern verarbeiten. Experimente auf Standard-Datensätzen wie ICDAR 2013, ICDAR 2015 und MSRA-TD500 zeigen, dass der vorgeschlagene Algorithmus erheblich bessere Ergebnisse als bisherige state-of-the-art Ansätze erzielt. Darüber hinaus geben wir das erste Baseline-Ergebnis für den kürzlich veröffentlichten, umfangreichen Datensatz COCO-Text bekannt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Szenentexterkennung durch ganzheitliche, mehrkanalige Vorhersage | Paper | HyperAI