UQuAD1.0 : Développement d’un ensemble de données d’entraînement en urdou pour la réponse à des questions par lecture automatique

Ces dernières années, la compréhension automatique des textes (Machine Reading Comprehension, MRC) en ressources limitées a connu des progrès significatifs, avec des modèles atteignant des performances remarquables sur diverses bases de données linguistiques. Toutefois, aucun de ces modèles n’a été spécifiquement adapté à la langue ourdoue. Ce travail explore la création semi-automatisée du jeu de données de question-réponse ourdou (UQuAD1.0), en combinant des traductions automatiques du SQuAD avec des échantillons générés par des humains issus d’articles Wikipedia et de feuilles d’exercices de compréhension de texte (RC) provenant des manuels du baccalauréat Cambridge O-level. UQuAD1.0 est une base de données à grande échelle destinée aux tâches de compréhension de texte extraitive en ourdou, comprenant 49 000 paires de questions-réponses structurées sous forme de question, passage et réponse. Dans UQuAD1.0, environ 45 000 paires QA ont été générées par traduction automatique du SQuAD1.0 original, tandis que près de 4 000 autres paires ont été obtenues grâce à un processus de crowdsourcing. Dans cette étude, deux types de modèles MRC ont été utilisés : une base basée sur des règles et des modèles avancés fondés sur l’architecture Transformer. Toutefois, nous avons constaté que les modèles basés sur Transformer surpassent nettement les autres ; nous avons donc décidé de nous concentrer exclusivement sur ces architectures. En utilisant XLMRoBERTa et BERT multilingue, nous avons obtenu respectivement un score F1 de 0,66 et de 0,63.