
摘要
本文提出了一种基于扩散模型的场景文本识别框架——DiffusionSTR(Diffusion Model for Scene Text Recognition),该框架采用端到端的方式,利用扩散模型实现对自然场景中文本的识别。与现有研究将场景文本识别任务视为图像到文本的转换不同,本文首次将该任务重新定义为在扩散模型框架下以图像为条件的文本到文本的生成过程。实验结果首次证明了扩散模型可有效应用于文本识别任务。在多个公开数据集上的实验表明,所提出的方法在识别准确率方面达到了与当前最优方法相媲美的水平。