HyperAIHyperAI
vor 16 Tagen

I3CL: Intra- und Inter-Instanz-kollaboratives Lernen für beliebig geformte Szenentextdetektion

Bo Du, Jian Ye, Jing Zhang, Juhua Liu, Dacheng Tao
I3CL: Intra- und Inter-Instanz-kollaboratives Lernen für beliebig geformte Szenentextdetektion
Abstract

Bekannte Methoden zur Erkennung beliebig geformter Texte in natürlichen Szenen stoßen auf zwei kritische Herausforderungen: Erstens treten Bruchstellen bei Textinstanzen auf, die durch Lücken innerhalb der Texte verursacht sind; zweitens sind die Erkennungen beliebig geformter Textinstanzen unter unterschiedlichen Hintergrundbedingungen ungenau. Um diese Probleme zu lösen, schlagen wir eine neue Methode namens Intra- und Inter-Instanz-Kooperatives Lernen (I3CL) vor. Insbesondere zur Lösung der ersten Herausforderung entwerfen wir ein effektives konvolutionales Modul mit mehreren Empfindlichkeitsfeldern, das in der Lage ist, innerhalb einer Textinstanz charakteristische und Lücken-relevante Merkmale auf lokaler und globaler Ebene kooperativ zu lernen. Zur Lösung der zweiten Herausforderung entwickeln wir ein instanzbasiertes Transformer-Modul, das Abhängigkeiten zwischen verschiedenen Textinstanzen ausnutzt, sowie ein globales Kontextmodul, das semantische Informationen aus dem gemeinsamen Hintergrund erschließt. Beide Module ermöglichen gemeinsam eine differenziertere Lernung von Textmerkmalen. Auf diese Weise kann I3CL intra- und inter-instanzuelle Abhängigkeiten effektiv in einem einheitlichen, end-to-end trainierbaren Rahmen ausnutzen. Zusätzlich entwerfen wir ein effektives semi-supervised Lernverfahren, das zur optimalen Ausnutzung von unbeschrifteten Daten Pseudolabels mittels einer Ensemblestrategie nutzt. Ohne zusätzliche Komplexitäten zeigen die experimentellen Ergebnisse, dass die vorgeschlagene I3CL neue SOTA-Ergebnisse auf drei anspruchsvollen öffentlichen Benchmarks erzielt: eine F-Maß von 77,5 % auf ICDAR2019-ArT, 86,9 % auf Total-Text und 86,4 % auf CTW-1500. Besonders hervorzuheben ist, dass unsere I3CL mit dem ResNeSt-101-Backbone den ersten Platz im ICDAR2019-ArT-Leaderboard belegt. Der Quellcode wird unter https://github.com/ViTAE-Transformer/ViTAE-Transformer-Scene-Text-Detection verfügbar sein.

I3CL: Intra- und Inter-Instanz-kollaboratives Lernen für beliebig geformte Szenentextdetektion | Neueste Forschungsarbeiten | HyperAI