il y a 2 mois

La formation intermédiaire en anglais améliore également le transfert croisé zéro-shot

Jason Phang; Iacer Calixto; Phu Mon Htut; Yada Pruksachatkun; Haokun Liu; Clara Vania; Katharina Kann; Samuel R. Bowman

Résumé

Formation sur une tâche intermédiaire --- ajustement fin d'un modèle préentraîné sur une tâche intermédiaire avant un nouvel ajustement fin sur la tâche cible --- améliore souvent considérablement les performances du modèle sur des tâches de compréhension linguistique dans des contextes monolingues en anglais. Nous examinons si la formation sur une tâche intermédiaire en anglais est toujours utile pour des tâches cibles non anglaises. En utilisant neuf tâches intermédiaires de compréhension linguistique, nous évaluons le transfert de tâches intermédiaires dans un cadre zéro-shot multilingue sur le benchmark XTREME. Nous constatons d'importantes améliorations grâce à la formation intermédiaire sur les tâches de récupération de phrases BUCC et Tatoeba, ainsi que des améliorations modérées sur les tâches cibles de questions-réponses. MNLI, SQuAD et HellaSwag obtiennent les meilleurs résultats globaux en tant que tâches intermédiaires, tandis que la formation multitâche intermédiaire offre de petites améliorations supplémentaires. En utilisant nos meilleurs modèles formés sur des tâches intermédiaires pour chaque tâche cible, nous obtenons une amélioration de 5,4 points par rapport au XLM-R Large sur le benchmark XTREME, établissant l'état de l'art au juin 2020. Nous examinons également la poursuite du MLM multilingue pendant la formation sur des tâches intermédiaires et l'utilisation de données de tâches intermédiaires traduites automatiquement, mais ni l'une ni l'autre ne surpassent systématiquement la simple formation sur des tâches intermédiaires en anglais.