HyperAIHyperAI

Command Palette

Search for a command to run...

MANGO: Ein maskenbasiertes Aufmerksamkeits-Modell für einstufige Szenentexterkennung

Liang Qiao Ying Chen Zhanzhan Cheng Yunlu Xu Yi Niu Shiliang Pu Fei Wu

Zusammenfassung

Kürzlich ist die end-to-end-Szene-Text-Spotting-Technik aufgrund ihrer Vorteile hinsichtlich globaler Optimierung und hoher Wartbarkeit in praktischen Anwendungen zu einem beliebten Forschungsthema geworden. Die meisten Ansätze zielen darauf ab, verschiedene Region of Interest (RoI)-Operationen zu entwickeln, um die Erkennungskomponente und die Folgeerkennungskomponente zu einem zweistufigen Text-Spotting-Framework zu verbinden. In solchen Architekturen ist die Erkennungskomponente jedoch stark empfindlich gegenüber den Ergebnissen der Erkennung (z. B. der Kompaktheit der Textkonturen). Um dieses Problem zu lösen, schlagen wir in diesem Artikel einen neuartigen, einstufigen Text-Spotting-Framework namens MANGO (Mask AttentioN Guided One-stage text spotting) vor, bei dem Charakterfolgen direkt erkannt werden können, ohne dass RoI-Operationen erforderlich sind. Konkret wird ein positionssensitives Masken-Attention-Modul entwickelt, das Aufmerksamkeitsgewichte für jedes Text-Instanz und ihre einzelnen Zeichen generiert. Dadurch können verschiedene Text-Instanzen in einem Bild auf unterschiedliche Feature-Kanäle abgebildet werden, die anschließend als Batch von Instanz-Features gruppiert werden. Schließlich wird ein leichtgewichtiger Sequenz-Decoder eingesetzt, um die Charakterfolgen zu generieren. Es ist erwähnenswert, dass MANGO inhärent auf beliebig geformte Texte angepasst ist und end-to-end mit lediglich groben Positionsangaben (z. B. rechteckigen Bounding Boxes) und Textannotierungen trainiert werden kann. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode sowohl auf regulären als auch auf irregulären Text-Spotting-Benchmarks, nämlich ICDAR 2013, ICDAR 2015, Total-Text und SCUT-CTW1500, konkurrenzfähige sowie neue SOTA-Leistungen erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MANGO: Ein maskenbasiertes Aufmerksamkeits-Modell für einstufige Szenentexterkennung | Paper | HyperAI