HyperAIHyperAI

Command Palette

Search for a command to run...

Selbstüberwachte Zeichen-zu-Zeichen-Distillation für Texterkennung

Tongkun Guan extsuperscript1 Wei Shen extsuperscript1 extsuperscript* Xue Yang extsuperscript1 Qi Feng extsuperscript2 Zekun Jiang extsuperscript1 Xiaokang Yang extsuperscript1

Zusammenfassung

Bei der Verarbeitung komplexer Textbilder (z.B. unregelmäßige Strukturen, niedrige Auflösung, starke Verdeckungen und ungleichmäßige Beleuchtung) sind bestehende überwachte Texterkennungsverfahren datenhungrig. Obwohl diese Methoden große Mengen synthetischer Textbilder verwenden, um die Abhängigkeit von annotierten realen Bildern zu reduzieren, begrenzt der Domänenunterschied den Erkennungsleistungsbereich dennoch. Daher ist das Erforschen robuster Textmerkmalsrepräsentationen auf nicht annotierten realen Bildern durch selbstüberwachtes Lernen eine gute Lösung. Bestehende selbstüberwachte Texterkennungsverfahren führen jedoch sequenzbasiertes Repräsentationslernen durch grobe Aufteilung der visuellen Merkmale entlang der horizontalen Achse durch, was die Flexibilität der Augmentierungen einschränkt, da große geometrische Augmentierungen zu Inkonsistenzen in den sequenzbasierten Merkmalen führen können. Angeregt durch diesen Sachverhalt schlagen wir eine neuartige Methode des selbstüberwachten Zeichen-zu-Zeichen-Verdistillierens vor, die CCD (Character-to-Character Distillation), welche vielseitige Augmentierungen ermöglicht, um allgemeines Textrepräsentationslernen zu fördern. Insbesondere segmentieren wir die Zeichenstrukturen von nicht annotierten realen Bildern durch Entwurf eines selbstüberwachten Zeichensegmentierungsmoduls. Anschließend bereichert CCD unter flexiblen Augmentierungen leicht die Vielfalt lokaler Zeichen, während es ihre paarweise Ausrichtung beibehält, indem es die Transformationsmatrix zwischen zwei augmentierten Ansichten aus den Bildern verwendet. Experimente zeigen, dass CCD den aktuellen Stand der Technik erreicht: Es erzielt durchschnittliche Leistungsverbesserungen von 1,38 % bei der Texterkennung, 1,7 % bei der Textsegmentierung sowie 0,24 dB (PSNR) und 0,0321 (SSIM) bei der Text-Super-Resolution. Der Quellcode ist unter https://github.com/TongkunGuan/CCD verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp