Mask TextSpotter v3: Segmentation Proposal Network für robuste Szenentexterkennung

Kürzlich entwickelte end-to-end trainierbare Methoden für die Erkennung von Szenentext, die Detektion und Erkennung integrieren, haben erhebliche Fortschritte gezeigt. Allerdings verwenden die meisten derzeitigen Spotter für beliebig geformten Szenentext Region Proposal Networks (RPN), um Vorschläge zu generieren. Die RPN beruht stark auf manuell entworfenen Anchors, und ihre Vorschläge werden durch achsenparallele Rechtecke repräsentiert. Letzteres führt zu Schwierigkeiten bei der Behandlung von Textinstanzen mit extremen Aspektverhältnissen oder unregelmäßigen Formen, während ersteres häufig mehrere benachbarte Textinstanzen in einer einzigen Vorschlag zusammenfasst, insbesondere bei dicht angeordneten, orientierten Texten. Um diese Probleme zu lösen, stellen wir Mask TextSpotter v3 vor – einen end-to-end trainierbaren Szenentext-Spotter, der anstelle einer RPN eine Segmentation Proposal Network (SPN) verwendet. Unsere SPN ist anchor-free und ermöglicht eine präzise Darstellung beliebig geformter Vorschläge. Dadurch übertrifft sie die RPN bei der Erkennung von Textinstanzen mit extremen Aspektverhältnissen oder unregelmäßigen Formen. Darüber hinaus ermöglichen die präzisen Vorschläge der SPN die Nutzung maskierter RoI-Features zur Entkopplung benachbarter Textinstanzen. Folglich kann unser Mask TextSpotter v3 Textinstanzen mit extremen Aspektverhältnissen oder unregelmäßigen Formen effektiv verarbeiten, ohne dass die Erkennungsgenauigkeit durch benachbarte Texte oder Hintergrundrauschen beeinträchtigt wird. Konkret erreichen wir eine Verbesserung gegenüber den aktuellen State-of-the-Art-Methoden um 21,9 Prozent auf dem Rotated ICDAR 2013-Datensatz (Rotationsrobustheit), um 5,9 Prozent auf dem Total-Text-Datensatz (Formrobustheit) und erzielen eine state-of-the-art-Leistung auf dem MSRA-TD500-Datensatz (Aspektverhältnisrobustheit). Der Quellcode ist unter folgender URL verfügbar: https://github.com/MhLiao/MaskTextSpotterV3