
要約
本稿では、自然画像中のテキストを認識するためのエンドツーエンド型テキスト認識フレームワーク「DiffusionSTR(Diffusion Model for Scene Text Recognition)」を提案する。従来の研究では、シーンテキスト認識タスクを画像からテキストへの変換問題として捉えていたが、本研究では拡散モデル(diffusion model)の枠組みにおいて、画像を背景にしたテキストからテキストへの変換問題として再定式化する。本研究では、初めて拡散モデルをテキスト認識に適用可能であることを示した。さらに、公開データセットを用いた実験結果から、提案手法が最先端の手法と比較して競争力ある認識精度を達成していることを確認した。