Selbstüberwachte Zeichen-zu-Zeichen-Distillation für Texterkennung

Bei der Verarbeitung komplexer Textbilder (z.B. unregelmäßige Strukturen, niedrige Auflösung, starke Verdeckungen und ungleichmäßige Beleuchtung) sind bestehende überwachte Texterkennungsverfahren datenhungrig. Obwohl diese Methoden große Mengen synthetischer Textbilder verwenden, um die Abhängigkeit von annotierten realen Bildern zu reduzieren, begrenzt der Domänenunterschied den Erkennungsleistungsbereich dennoch. Daher ist das Erforschen robuster Textmerkmalsrepräsentationen auf nicht annotierten realen Bildern durch selbstüberwachtes Lernen eine gute Lösung. Bestehende selbstüberwachte Texterkennungsverfahren führen jedoch sequenzbasiertes Repräsentationslernen durch grobe Aufteilung der visuellen Merkmale entlang der horizontalen Achse durch, was die Flexibilität der Augmentierungen einschränkt, da große geometrische Augmentierungen zu Inkonsistenzen in den sequenzbasierten Merkmalen führen können. Angeregt durch diesen Sachverhalt schlagen wir eine neuartige Methode des selbstüberwachten Zeichen-zu-Zeichen-Verdistillierens vor, die CCD (Character-to-Character Distillation), welche vielseitige Augmentierungen ermöglicht, um allgemeines Textrepräsentationslernen zu fördern. Insbesondere segmentieren wir die Zeichenstrukturen von nicht annotierten realen Bildern durch Entwurf eines selbstüberwachten Zeichensegmentierungsmoduls. Anschließend bereichert CCD unter flexiblen Augmentierungen leicht die Vielfalt lokaler Zeichen, während es ihre paarweise Ausrichtung beibehält, indem es die Transformationsmatrix zwischen zwei augmentierten Ansichten aus den Bildern verwendet. Experimente zeigen, dass CCD den aktuellen Stand der Technik erreicht: Es erzielt durchschnittliche Leistungsverbesserungen von 1,38 % bei der Texterkennung, 1,7 % bei der Textsegmentierung sowie 0,24 dB (PSNR) und 0,0321 (SSIM) bei der Text-Super-Resolution. Der Quellcode ist unter https://github.com/TongkunGuan/CCD verfügbar.