HyperAIHyperAI
vor 11 Tagen

Untersuchung der Kapazität eines ordnungsunabhängigen Box-Discretisierungsnetzwerks für die mehrorientierte Szenentextdetektion

Yuliang Liu, Tong He, Hao Chen, Xinyu Wang, Canjie Luo, Shuaitao Zhang, Chunhua Shen, Lianwen Jin
Untersuchung der Kapazität eines ordnungsunabhängigen Box-Discretisierungsnetzwerks für die mehrorientierte Szenentextdetektion
Abstract

Die Detektion von Szenentexten in mehreren Orientierungen hat in letzter Zeit erhebliche Forschungsinteressen geweckt. Bisherige Ansätze prognostizieren direkt Wörter oder Textzeilen, typischerweise durch Verwendung von Vierecksformen. Doch viele dieser Methoden vernachlässigen die Bedeutung einer konsistenten Beschriftung, die für einen stabilen Trainingsprozess, insbesondere bei großen Datensätzen, von entscheidender Bedeutung ist. In diesem Beitrag lösen wir dieses Problem durch die Einführung einer neuen Methode namens Orderless Box Discretization (OBD). Zunächst diskretisiert OBD das Vierecksrohsegment in mehrere Schlüsselkanten, die alle möglichen horizontalen und vertikalen Positionen enthalten. Um präzise Eckpunktpositionen zu rekonstruieren, wird ein einfaches, jedoch wirksames Zuordnungsverfahren vorgeschlagen, das die Wiederherstellung der Vierecksumrandungen ermöglicht. Unsere Methode beseitigt die Ambiguitätsproblematik, die erheblichen Einfluss auf den Lernprozess hat. Um die Wirksamkeit der vorgeschlagenen Methode quantitativ zu validieren, wurden umfangreiche Ablationsstudien durchgeführt. Vor allem aber liefert unsere Methode auf Basis von OBD eine detaillierte Analyse der Auswirkungen einer Reihe von Verbesserungen, die andere Forscher möglicherweise inspirieren könnten, state-of-the-art-Textdetektoren zu entwickeln. Durch die Kombination von OBD und diesen nützlichen Verbesserungen erreichen wir state-of-the-art-Leistung auf verschiedenen Benchmarks, darunter ICDAR 2015 und MLT. Zudem erreichte unsere Methode den ersten Platz im Textdetektionswettbewerb der ICDAR2019 Robust Reading Challenge im Bereich „Reading Chinese Text on Signboards“, was ihre überlegene Leistung eindrucksvoll unterstreicht. Der Quellcode ist unter https://git.io/TextDet verfügbar.

Untersuchung der Kapazität eines ordnungsunabhängigen Box-Discretisierungsnetzwerks für die mehrorientierte Szenentextdetektion | Neueste Forschungsarbeiten | HyperAI