HyperAIHyperAI

Command Palette

Search for a command to run...

Untersuchung der Kapazität eines ordnungsunabhängigen Box-Discretisierungsnetzwerks für die mehrorientierte Szenentextdetektion

Yuliang Liu Tong He Hao Chen Xinyu Wang Canjie Luo Shuaitao Zhang Chunhua Shen Lianwen Jin

Zusammenfassung

Die Detektion von Szenentexten in mehreren Orientierungen hat in letzter Zeit erhebliche Forschungsinteressen geweckt. Bisherige Ansätze prognostizieren direkt Wörter oder Textzeilen, typischerweise durch Verwendung von Vierecksformen. Doch viele dieser Methoden vernachlässigen die Bedeutung einer konsistenten Beschriftung, die für einen stabilen Trainingsprozess, insbesondere bei großen Datensätzen, von entscheidender Bedeutung ist. In diesem Beitrag lösen wir dieses Problem durch die Einführung einer neuen Methode namens Orderless Box Discretization (OBD). Zunächst diskretisiert OBD das Vierecksrohsegment in mehrere Schlüsselkanten, die alle möglichen horizontalen und vertikalen Positionen enthalten. Um präzise Eckpunktpositionen zu rekonstruieren, wird ein einfaches, jedoch wirksames Zuordnungsverfahren vorgeschlagen, das die Wiederherstellung der Vierecksumrandungen ermöglicht. Unsere Methode beseitigt die Ambiguitätsproblematik, die erheblichen Einfluss auf den Lernprozess hat. Um die Wirksamkeit der vorgeschlagenen Methode quantitativ zu validieren, wurden umfangreiche Ablationsstudien durchgeführt. Vor allem aber liefert unsere Methode auf Basis von OBD eine detaillierte Analyse der Auswirkungen einer Reihe von Verbesserungen, die andere Forscher möglicherweise inspirieren könnten, state-of-the-art-Textdetektoren zu entwickeln. Durch die Kombination von OBD und diesen nützlichen Verbesserungen erreichen wir state-of-the-art-Leistung auf verschiedenen Benchmarks, darunter ICDAR 2015 und MLT. Zudem erreichte unsere Methode den ersten Platz im Textdetektionswettbewerb der ICDAR2019 Robust Reading Challenge im Bereich „Reading Chinese Text on Signboards“, was ihre überlegene Leistung eindrucksvoll unterstreicht. Der Quellcode ist unter https://git.io/TextDet verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Untersuchung der Kapazität eines ordnungsunabhängigen Box-Discretisierungsnetzwerks für die mehrorientierte Szenentextdetektion | Paper | HyperAI