Apprentissage auto-référent chez Meta pour l’adaptation de domaine à plusieurs sources : une référence

Ces dernières années, les méthodes fondées sur l’apprentissage profond ont obtenu des résultats prometteurs dans le domaine de la vision par ordinateur. Toutefois, un modèle d’apprentissage profond classique nécessite une quantité importante de données étiquetées, dont la collecte et l’étiquetage s’avèrent particulièrement coûteux en main-d’œuvre. En outre, le modèle peut subir une dégradation significative en raison du décalage de domaine entre les données d’entraînement et celles de test. La reconnaissance de texte constitue un domaine largement étudié en vision par ordinateur, et elle est confrontée aux mêmes défis, notamment en raison de la grande diversité des polices et des arrière-plans complexes. Dans ce travail, nous nous concentrons sur le problème de reconnaissance de texte et apportons principalement trois contributions pour y remédier. Premièrement, nous avons collecté un jeu de données pour l’adaptation de domaine multi-source dédié à la reconnaissance de texte, comprenant cinq domaines distincts et plus de cinq millions d’images, constituant, à notre connaissance, le premier jeu de données multi-domaine dédié à cette tâche. Deuxièmement, nous proposons une nouvelle méthode appelée Meta Self-Learning, qui combine la stratégie d’apprentissage auto-supervisé (self-learning) avec le cadre d’apprentissage métadonnées (meta-learning), et obtient des résultats de reconnaissance supérieurs dans le contexte d’adaptation multi-domaine. Troisièmement, nous menons des expérimentations étendues sur ce jeu de données afin d’établir une référence (benchmark) et de démontrer l’efficacité de notre approche. Le code de notre travail ainsi que le jeu de données seront bientôt disponibles à l’adresse suivante : https://bupt-ai-cz.github.io/Meta-SelfLearning/.