16日前

文脈認識並列デコーダによるシーンテキスト認識

Yongkun Du, Zhineng Chen, Caiyan Jia, Xiaoting Yin, Chenxia Li, Yuning Du, Yu-Gang Jiang
文脈認識並列デコーダによるシーンテキスト認識
要約

シーンテキスト認識(Scene Text Recognition, STR)手法は、高い認識精度と高速な推論速度の両立に困難を抱えてきた。自己回帰型(Autoregressive, AR)ベースのモデルは、文字単位で逐次的に認識を行うため、精度面で優れた性能を発揮するが、推論速度が遅いという課題がある。一方、並列デコード(Parallel Decoding, PD)ベースのモデルは、一度のデコード処理ですべての文字を同時に出力するため、高速な推論が可能であるものの、一般的には精度が劣る傾向にある。本研究では、STRにおけるARデコーダーの実証的研究を初めて行い、ARデコーダーが言語的文脈をモデル化するだけでなく、視覚的文脈の認識にも指導的役割を果たしていることを発見した。これを踏まえ、本研究では「コンテキスト認識並列デコーダー(Context Perception Parallel Decoder, CPPD)」を提案する。CPPDは、1回のPD処理で文字列を予測する仕組みであり、各文字の出現回数を推定する「文字カウントモジュール」と、内容のない読み順およびプレースホルダーを推定する「文字順序モジュール」を導入している。さらに、文字予測タスクにより、プレースホルダーと実際の文字が対応づけられる。これらのモジュールが統合されることで、包括的な認識コンテキストが構築される。本研究では、複数のCPPDモデルを構築するとともに、提案したモジュールを既存のSTRデコーダーに組み込む実験も行った。英語および中国語のベンチマークにおける実験結果から、CPPDモデルはARベースのモデルと比べて約8倍高速でありながら、非常に競争力のある精度を達成した。また、既存モデルにモジュールを組み込むことで、顕著な精度向上が確認された。コードは以下のURLにて公開されている:\href{https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/algorithm_rec_cppd_en.md}{https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/algorithm_rec_cppd_en.md}。

文脈認識並列デコーダによるシーンテキスト認識 | 最新論文 | HyperAI超神経