HyperAIHyperAI

Command Palette

Search for a command to run...

MaskOCR: Texterkennung mit maskiertem Encoder-Decoder-Vortrainieren

Pengyuan Lyu Chengquan Zhang Shanshan Liu Meina Qiao Yangliu Xu Liang Wu Kun Yao Junyu Han Errui Ding Jingdong Wang

Zusammenfassung

Textbilder enthalten sowohl visuelle als auch sprachliche Informationen. Bestehende Vortrainingsmethoden für die Texterkennung konzentrieren sich jedoch hauptsächlich entweder auf die Lernung visueller Repräsentationen oder auf die Lernung sprachlicher Kenntnisse. In diesem Artikel stellen wir einen neuen Ansatz namens MaskOCR vor, der die Vortrainings von Vision und Sprache im klassischen Encoder-Decoder-Framework vereint. Wir nutzen den Ansatz des maskierten Bildmodellierens, um den Merkmalsextraktor anhand einer großen Menge unlabelierter realer Textbilder vorzutrainieren, wodurch starke visuelle Repräsentationen erlernt werden können. Im Gegensatz zu der Einführung sprachlicher Kenntnisse mittels eines zusätzlichen Sprachmodells trainieren wir die Sequenzdekodierer direkt vor. Konkret transformieren wir Textdaten in synthetische Textbilder, um die Datentypen von Vision und Sprache zu vereinheitlichen, und stärken die Sprachmodellierungsfähigkeit der Sequenzdekodierer durch ein neu vorgeschlagenes maskiertes Bild-Sprache-Modellierungsverfahren. Wichtig ist, dass der Encoder während des Vortrainings der Sequenzdekodierer fixiert bleibt. Experimentelle Ergebnisse zeigen, dass unsere vorgeschlagene Methode eine überlegene Leistung auf Benchmark-Datensätzen erzielt, einschließlich chinesischer und englischer Textbilder.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp