Augmentation de données pour l’ajustement fin de BERT dans le domaine des questions-réponses ouvert

Récemment, une combinaison simple de la recherche de passages utilisant des techniques d'IR (Information Retrieval) standard et d'un lecteur BERT s'est avérée très efficace pour répondre aux questions directement sur Wikipédia, offrant une amélioration considérable par rapport à l'état de l'art précédent sur un jeu de données de référence standard. Dans cet article, nous présentons une technique d'augmentation de données utilisant une supervision distante qui exploite à la fois des exemples positifs et négatifs. Nous appliquons une approche en plusieurs étapes pour affiner BERT sur plusieurs jeux de données, en commençant par les données les plus éloignées des données de test et en terminant par celles les plus proches. Les résultats expérimentaux montrent des gains importants en efficacité par rapport aux approches précédentes sur des jeux de données QA (Question Answering) anglais, et nous établissons de nouvelles références sur deux jeux de données QA chinois récents.