HyperAIHyperAI

Command Palette

Search for a command to run...

Ein von Anfang bis Ende trainierbares neuronales Netzwerk für bildbasierte Sequenzerkennung und seine Anwendung auf die Erkennung von Szene-Text

Baoguang Shi Xiang Bai Cong Yao

Zusammenfassung

Bildbasierte Sequenzerkennung ist ein seit langem bestehendes Forschungsthema in der Computer Vision. In dieser Arbeit untersuchen wir das Problem der Szene-Text-Erkennung, das zu den wichtigsten und herausforderndsten Aufgaben bei bildbasierter Sequenzerkennung gehört. Es wird eine neuartige neuronale Netzarchitektur vorgeschlagen, die Merkmalsextraktion, Sequenzmodellierung und Transkription in einem einheitlichen Framework integriert. Im Vergleich zu früheren Systemen für die Szene-Text-Erkennung weist die vorgeschlagene Architektur vier charakteristische Eigenschaften auf: (1) Sie ist von Anfang bis Ende trainierbar, im Gegensatz zu den meisten existierenden Algorithmen, deren Komponenten getrennt trainiert und optimiert werden. (2) Sie beherrscht natürliche Sequenzen beliebiger Länge und erfordert keine Zeichensegmentierung oder horizontale Skalennormalisierung. (3) Sie ist nicht auf ein vordefiniertes Lexikon beschränkt und erzielt bemerkenswerte Leistungen sowohl bei lexikonfreien als auch bei lexikonbasierten Aufgaben der Szene-Text-Erkennung. (4) Sie generiert ein effektives, aber viel kleineres Modell, das praktischer für reale Anwendungsszenarien ist. Die Experimente mit Standard-Benchmarks, einschließlich den Datensätzen IIIT-5K, Street View Text und ICDAR, zeigen die Überlegenheit des vorgeschlagenen Algorithmus gegenüber früheren Arbeiten. Darüber hinaus erweist sich der vorgeschlagene Algorithmus auch bei der bildbasierten Erkennung von Notenzeilen als leistungsfähig, was seine Allgemeingültigkeit offensichtlich bestätigt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein von Anfang bis Ende trainierbares neuronales Netzwerk für bildbasierte Sequenzerkennung und seine Anwendung auf die Erkennung von Szene-Text | Paper | HyperAI