11日前
MaskOCR:マスク付きエンコーダデコーダ事前学習を用いたテキスト認識
Pengyuan Lyu, Chengquan Zhang, Shanshan Liu, Meina Qiao, Yangliu Xu, Liang Wu, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang

要約
テキスト画像は視覚情報と言語情報の両方を含んでいます。しかし、既存のテキスト認識の事前学習手法は、主に視覚的表現の学習または言語知識の学習のいずれかに焦点を当てています。本稿では、従来のエンコーダ-デコーダ型認識フレームワークにおいて、視覚と言語の事前学習を統合する新しいアプローチ「MaskOCR」を提案します。我々は、大量のラベルなし実際のテキスト画像を用いて特徴エンコーダを事前学習するため、マスク画像モデリング(masked image modeling)アプローチを採用し、強力な視覚表現を学習可能としました。言語モデルを追加して言語知識を導入する従来のアプローチとは異なり、本研究ではシーケンスデコーダを直接事前学習します。具体的には、テキストデータを合成テキスト画像に変換することで、視覚と言語のデータモダリティを統一し、提案するマスク画像-言語モデリング(masked image-language modeling)スキームを用いて、シーケンスデコーダの言語モデリング能力を強化します。特に、シーケンスデコーダの事前学習段階ではエンコーダを固定(フリーズ)しています。実験結果により、本手法が中国語および英語のテキスト画像を含む標準ベンチマークデータセットにおいて優れた性能を達成することが示されました。