DiffusionSTR : Modèle de diffusion pour la reconnaissance de texte dans les scènes

Cet article présente DiffusionSTR, un cadre de reconnaissance de texte dans des scènes (Scene Text Recognition) basé sur les modèles de diffusion, conçu pour reconnaître du texte dans des environnements réels. Alors que les travaux existants considèrent la tâche de reconnaissance de texte dans les scènes comme une transformation d’image vers texte, nous la réinterprétons comme une transformation texte vers texte, conditionnée par une image, dans le cadre d’un modèle de diffusion. Pour la première fois, nous démontrons que les modèles de diffusion peuvent être efficacement appliqués à la reconnaissance de texte. De plus, les résultats expérimentaux obtenus sur des jeux de données publics montrent que la méthode proposée atteint une précision compétitive par rapport aux méthodes de pointe actuelles.