MRN : Réseau de routage multiplexé pour la reconnaissance incrémentale de texte multilingue

Les systèmes de reconnaissance de texte multilingue (MLTR) se concentrent généralement sur un ensemble fixe de langues, ce qui rend difficile la prise en charge de nouvelles langues ou l’adaptation à une distribution de données en constante évolution. Dans cet article, nous proposons la tâche d’apprentissage incrémentiel en reconnaissance de texte multilingue (IMLTR), dans le cadre de l’apprentissage incrémentiel (IL), où les différentes langues sont introduites par lots. L’IMLTR est particulièrement difficile en raison du problème de déséquilibre de répétition (rehearsal-imbalance), qui décrit une répartition inégale des caractères d’échantillons dans l’ensemble de répétition utilisé pour conserver une petite quantité de données anciennes en tant que mémoire passée. Pour résoudre ce problème, nous proposons un réseau de routage multiplexé (MRN). Le MRN entraîne un reconnaissant pour chaque langue actuellement observée. Ensuite, un prédicteur de domaine linguistique est appris à partir de l’ensemble de répétition afin de pondérer les reconnaissants. Étant donné que les reconnaissants sont extraits à partir des données originales, le MRN réduit efficacement la dépendance vis-à-vis des données anciennes et combat mieux le oubli catastrophique, le problème central de l’IL. Nous évaluons de manière extensive le MRN sur les jeux de données MLT17 et MLT19. Il surpasser largement les méthodes existantes d’IL généralistes, avec des améliorations moyennes de précision allant de 10,3 % à 35,8 % selon les configurations. Le code est disponible à l’adresse suivante : https://github.com/simplify23/MRN.