HyperAIHyperAI
vor 8 Tagen

GLASS: Global to Local Attention für Scene-Text Spotting

Roi Ronen, Shahar Tsiper, Oron Anschel, Inbal Lavi, Amir Markovitz, R. Manmatha
GLASS: Global to Local Attention für Scene-Text Spotting
Abstract

In den letzten Jahren dominiert der Ansatz, die Aufgaben der Textdetektion und -erkennung in einem einzigen end-to-end-Framework zu kombinieren. Unter diesem Paradigma werden beide Aufgaben durch die Verarbeitung einer gemeinsamen globalen Merkmalskarte erfüllt, die aus dem Eingabebild extrahiert wird. Zu den zentralen Herausforderungen, mit denen end-to-end-Methoden konfrontiert sind, gehört die Leistungsverschlechterung bei der Erkennung von Text bei unterschiedlichen Skalierungen (kleiner oder größerer Text) sowie bei beliebigen Wortrotationen. In dieser Arbeit begegnen wir diesen Herausforderungen durch die Einführung eines neuartigen global-to-local-Attention-Mechanismus für Textspotting, genannt GLASS, der globale und lokale Merkmale integriert. Die globalen Merkmale werden aus dem gemeinsamen Backbone extrahiert und bewahren die Kontextinformationen aus dem gesamten Bild, während die lokalen Merkmale jeweils auf verkleinerten, hochauflösenden, rotierten Wortausschnitten unabhängig berechnet werden. Die aus den lokalen Ausschnitten gewonnenen Informationen mindern erheblich die inhärenten Schwierigkeiten hinsichtlich Skalierung und Wortrotation. Wir führen eine detaillierte Leistungsanalyse über verschiedene Skalen und Rotationswinkel durch und zeigen signifikante Verbesserungen insbesondere an den Extremwerten. Darüber hinaus stellen wir eine ausrichtungsbehaftete Verlustfunktion vor, die die Detektionsaufgabe supervisiert, und belegen deren positiven Einfluss auf sowohl die Detektions- als auch die Erkennungsleistung bei allen Winkeln. Schließlich zeigen wir, dass GLASS allgemein verwendbar ist, indem wir es in andere führende Textspotting-Architekturen integrieren und deren Leistung bei der Textspotting-Aufgabe verbessern. Unser Ansatz erzielt state-of-the-art-Ergebnisse auf mehreren Benchmarks, darunter der kürzlich veröffentlichten TextOCR-Datenbank.