vor 15 Tagen

MaskOCR: Texterkennung mit maskiertem Encoder-Decoder-Vortrainieren

Pengyuan Lyu, Chengquan Zhang, Shanshan Liu, Meina Qiao, Yangliu Xu, Liang Wu, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang

Details der Forschungsarbeit anzeigen

MaskOCR: Texterkennung mit maskiertem Encoder-Decoder-Vortrainieren

Abstract

Textbilder enthalten sowohl visuelle als auch sprachliche Informationen. Bestehende Vortrainingsmethoden für die Texterkennung konzentrieren sich jedoch hauptsächlich entweder auf die Lernung visueller Repräsentationen oder auf die Lernung sprachlicher Kenntnisse. In diesem Artikel stellen wir einen neuen Ansatz namens MaskOCR vor, der die Vortrainings von Vision und Sprache im klassischen Encoder-Decoder-Framework vereint. Wir nutzen den Ansatz des maskierten Bildmodellierens, um den Merkmalsextraktor anhand einer großen Menge unlabelierter realer Textbilder vorzutrainieren, wodurch starke visuelle Repräsentationen erlernt werden können. Im Gegensatz zu der Einführung sprachlicher Kenntnisse mittels eines zusätzlichen Sprachmodells trainieren wir die Sequenzdekodierer direkt vor. Konkret transformieren wir Textdaten in synthetische Textbilder, um die Datentypen von Vision und Sprache zu vereinheitlichen, und stärken die Sprachmodellierungsfähigkeit der Sequenzdekodierer durch ein neu vorgeschlagenes maskiertes Bild-Sprache-Modellierungsverfahren. Wichtig ist, dass der Encoder während des Vortrainings der Sequenzdekodierer fixiert bleibt. Experimentelle Ergebnisse zeigen, dass unsere vorgeschlagene Methode eine überlegene Leistung auf Benchmark-Datensätzen erzielt, einschließlich chinesischer und englischer Textbilder.