Transformers pour la détection de texte

Dans cet article, nous présentons TExt Spotting TRansformers (TESTR), un cadre générique et end-to-end pour la détection et la reconnaissance de texte dans des environnements réels, basé sur les Transformers. TESTR repose sur un seul encodeur et deux décodeurs permettant conjointement la régression des points de contrôle des boîtes de texte et la reconnaissance des caractères. Contrairement à la plupart des travaux existants, notre méthode est indépendante des opérations de région d’intérêt (Region-of-Interest) et des étapes de post-traitement heuristiques ; TESTR s’avère particulièrement efficace pour traiter les textes courbés, où des ajustements spécifiques sont nécessaires pour adapter les représentations traditionnelles par boîtes englobantes. Nous proposons une représentation canonique des points de contrôle adaptée aux instances de texte, qu’elles soient annotées sous forme de courbes de Bézier ou de polygones. Par ailleurs, nous avons conçu un processus de détection de polygones guidé par des boîtes englobantes (box-to-polygon). Les expériences menées sur des jeux de données comprenant des textes courbés et de formes arbitraires démontrent que l’algorithme TESTR atteint des performances de pointe par rapport aux méthodes existantes.