HyperAIHyperAI
vor 2 Monaten

WordSup: Nutzung von Wortannotierungen für die zeichengruppenbasierte Texterkennung

Han Hu; Chengquan Zhang; Yuxuan Luo; Yuzhuo Wang; Junyu Han; Errui Ding
WordSup: Nutzung von Wortannotierungen für die zeichengruppenbasierte Texterkennung
Abstract

Bildtexte werden in der Regel als Hierarchie aus mehreren visuellen Elementen organisiert, wie zum Beispiel Buchstaben, Wörtern, Textzeilen und Textblöcken. Unter diesen Elementen ist der Buchstabe das grundlegendste für verschiedene Sprachen wie westliche, chinesische, japanische, mathematische Ausdrücke usw. Es ist natürlich und zweckmäßig, einen gemeinsamen Texterkennungsmotor auf Basis von Buchstabenerkennern zu konstruieren. Allerdings erfordert die Schulung von Buchstabenerkennern eine große Anzahl von ortsanotierten Buchstaben, die teuer zu beschaffen sind. In der Praxis sind die vorhandenen realen Textdatensätze größtenteils auf Wort- oder Zeilenebene annotiert. Um dieses Dilemma zu lösen, schlagen wir ein schwach überwachtes Framework vor, das feste Quadranten oder lose Begrenzungsrahmen (bounding boxes) von Wortanotierungen für die Schulung von Buchstabenerkennern nutzen kann. Bei der Anwendung auf die Erkennung von Szenentexten können wir so durch die Nutzung von Wortanotierungen in umfangreichen realen Szenentextdatensätzen wie ICDAR15 und COCO-Text einen robusten Buchstabenerkenner trainieren. Der Buchstabenerkenner spielt eine Schlüsselrolle in unserem Texterkennungssystem. Er erreicht den Stand der Technik auf mehreren anspruchsvollen Benchmarks für Szenentexterkennung. Wir demonstrieren auch die Flexibilität unseres Systems durch verschiedene Szenarien, darunter die Erkennung verzerrter Texte und die Anerkennung mathematischer Ausdrücke.

WordSup: Nutzung von Wortannotierungen für die zeichengruppenbasierte Texterkennung | Neueste Forschungsarbeiten | HyperAI