Compréhension multilingue par BERT en anglais et en hindi

La Compréhension Multilingue des Machines (CMM) est une sous-tâche de Question-Réponse (QR) qui implique d'extraire la réponse à une question à partir d'un extrait donné, où la question et l'extrait peuvent être en langues différentes. La variante multilingue récemment publiée de BERT (m-BERT), pré-entraînée avec 104 langues, a montré de bonnes performances dans les configurations zéro-shot et fine-tuned pour les tâches multilingues ; cependant, elle n'a pas encore été utilisée pour la CMM anglais-hindi. Nous présentons donc dans cet article nos expériences avec m-BERT pour la CMM dans des configurations zéro-shot, monolingue (par exemple, question hindi-extrait hindi) et croisée (par exemple, question anglaise-extrait hindi). Ces variantes de modèles sont évaluées sur tous les paramètres multilingues possibles et les résultats sont comparés au système QR séquentiel actuel de pointe pour ces langues. Les expériences montrent que m-BERT, après fine-tuning, améliore les performances sur tous les paramètres d'évaluation des deux jeux de données utilisés par le modèle précédent, établissant ainsi la CMM basée sur m-BERT comme la nouvelle référence en matière de QR pour l'anglais et l'hindi. Nous publions également nos résultats sur une version étendue du jeu de données XQuAD récemment publié, que nous proposons d'utiliser comme benchmark d'évaluation pour les futures recherches.