HyperAIHyperAI
il y a 17 jours

MuCoT : Entraînement contrastif multilingue pour la réponse aux questions dans les langues à faibles ressources

Gokul Karthik Kumar, Abhishek Singh Gehlot, Sahal Shaji Mullappilly, Karthik Nandakumar
MuCoT : Entraînement contrastif multilingue pour la réponse aux questions dans les langues à faibles ressources
Résumé

La précision des systèmes de réponse aux questions (QA) en langue anglaise a considérablement progressé ces dernières années grâce à l’apparition des modèles fondés sur l’architecture Transformer (par exemple, BERT). Ces modèles sont pré-entraînés de manière auto-supervisée à l’aide d’un vaste corpus de textes en anglais, puis affinés (fine-tuned) sur de grandes bases de données de QA en anglais (par exemple, SQuAD). Toutefois, de telles bases de données de QA à grande échelle ne sont pas disponibles pour la plupart des autres langues. Les modèles basés sur BERT multilingues (mBERT) sont fréquemment utilisés pour transférer des connaissances des langues à ressources abondantes vers celles à ressources limitées. Étant donné que ces modèles sont pré-entraînés sur de vastes corpus contenant plusieurs langues, ils apprennent généralement des représentations (embeddings) indépendantes des langues pour les tokens provenant de différentes langues. Toutefois, l’entraînement direct d’un système QA basé sur mBERT pour les langues à faibles ressources s’avère difficile en raison du manque de données d’entraînement. Dans ce travail, nous augmentons les échantillons de QA de la langue cible en utilisant la traduction et la translittération vers d’autres langues, puis nous utilisons ces données augmentées pour affiner un modèle QA basé sur mBERT déjà pré-entraîné en anglais. Des expériences menées sur le jeu de données Google ChAII montrent que l’affinage du modèle mBERT à l’aide de traductions provenant de la même famille linguistique améliore les performances de réponse aux questions, tandis que celles-ci se dégradent dans le cas de traductions entre familles linguistiques différentes. Nous montrons également qu’en introduisant une perte contrastive entre les paires de caractéristiques (question-contexte) traduites durant le processus d’affinage, il est possible d’éviter cette dégradation lorsque les traductions proviennent de familles linguistiques distinctes, conduisant à une amélioration marginale. Le code associé à ce travail est disponible à l’adresse suivante : https://github.com/gokulkarthik/mucot.