HyperAIHyperAI
vor 8 Tagen

A3S: adversariales Lernen semantischer Darstellungen für Scene-Text Spotting

Masato Fujitake
A3S: adversariales Lernen semantischer Darstellungen für Scene-Text Spotting
Abstract

Die Erkennung von Textstellen in Szenenbildern (Scene-text Spotting) ist eine Aufgabe, bei der gleichzeitig der Bereich eines Textes in natürlichen Szenenbildern vorhergesagt und die darin enthaltenen Zeichen erkannt werden. In den letzten Jahren hat diese Aufgabe aufgrund ihrer vielfältigen Anwendungen erhebliche Aufmerksamkeit erhalten. Die bisherige Forschung konzentrierte sich hauptsächlich auf die Verbesserung der Erkennung von Textregionen, weniger auf die Texterkennung selbst. Dadurch ist zwar die Genauigkeit der Detektion gestiegen, jedoch bleibt die End-to-End-Genauigkeit unzureichend. Texte in natürlichen Szenenbildern sind tendenziell keine willkürlichen Zeichenfolgen, sondern sinnvolle Zeichenketten, also Wörter. Daher schlagen wir einen Ansatz namens adversariales Lernen semantischer Darstellungen für die Szenentexterkennung (A3S) vor, um die End-to-End-Genauigkeit, einschließlich der Texterkennung, zu verbessern. A3S erfasst gleichzeitig semantische Merkmale im erkannten Textbereich, anstatt lediglich auf Basis bestehender visueller Merkmale eine Texterkennung durchzuführen. Experimentelle Ergebnisse auf öffentlich verfügbaren Datensätzen zeigen, dass die vorgeschlagene Methode eine höhere Genauigkeit als bestehende Ansätze erreicht.