TextCaps : Reconnaissance de caractères manuscrits avec des jeux de données très petits

De nombreuses langues localisées peinent à bénéficier des récents progrès dans les systèmes de reconnaissance de caractères en raison du manque de données d'entraînement étiquetées en quantité suffisante. Cette situation est due à la difficulté de générer de grandes quantités de données étiquetées pour ces langues et à l'incapacité des techniques d'apprentissage profond à apprendre correctement à partir d'un petit nombre d'échantillons d'entraînement. Nous résolvons ce problème en introduisant une technique permettant de générer de nouveaux échantillons d'entraînement à partir des échantillons existants, avec des augmentations réalistes qui reflètent les variations réelles présentes dans l'écriture manuscrite humaine, en ajoutant un bruit contrôlé aléatoire aux paramètres d'instanciation correspondants. Nos résultats, obtenus avec seulement 200 échantillons d'entraînement par classe, surpassent les résultats existants dans le jeu de données EMNIST-letters tout en atteignant les performances actuelles dans trois autres jeux de données : EMNIST-balanced, EMNIST-digits et MNIST. Nous avons également développé une stratégie pour utiliser efficacement une combinaison de fonctions de perte afin d'améliorer les reconstructions. Notre système est utile pour la reconnaissance de caractères dans les langues localisées qui manquent de données d'entraînement étiquetées et même dans d'autres contextes plus généraux liés tels que la reconnaissance d'objets.