11日前
TextScanner:順序に文字を読み取ることによる堅牢なシーンテキスト認識
Zhaoyi Wan, Minghang He, Haoran Chen, Xiang Bai, Cong Yao

要約
近年、深層学習と大量データの進展により、シーンテキスト認識は急速に発展している。かつてはRNN-attentionに基づく手法がこの分野を主導していたが、特定の状況下では「アテンションドリフト(attention drift)」という問題に直面していた。最近では、セマンティックセグメンテーションに基づくアプローチが、水平、回転、曲線など多様な形状のテキスト認識において有効であることが示された。しかし、これらの手法はセグメンテーションマップに対するしきい値処理(thresholding procedure)に大きく依存しているため、誤検出や真の文字の漏れが生じる可能性がある。こうした課題に対処するため、本稿では新たなアプローチ、TextScannerを提案する。TextScannerは以下の3つの特徴を持つ:(1)基本的にはセマンティックセグメンテーションの枠組みに属し、文字クラス、位置、順序をピクセル単位で多チャネルのセグメンテーションマップとして出力する;(2)同時に、RNN-attentionベースの手法と同様に、文脈モデリングにRNNを採用する;(3)さらに、文字の位置とクラスを並列に予測し、文字の出力順序を正しく保証する。標準ベンチマークデータセットにおける実験結果から、TextScannerは最先端の手法を上回る性能を示した。特に、中国語テキストなどより困難なテキスト認識や、ターゲット文字との正確な対応(alignment)において、その優位性が顕著に示された。