Entraînement coopératif auto-supervisé pour la compréhension automatique de texte

Les modèles linguistiques préentraînés ont considérablement amélioré les performances des tâches de compréhension du langage en amont, notamment la réponse aux questions par extraction, en fournissant des embeddings contextuels de haute qualité. Toutefois, l'entraînement de modèles de réponse aux questions nécessite encore de grandes quantités de données annotées pour des domaines spécifiques. Dans ce travail, nous proposons un cadre coopératif d'auto-entraînement, RGX, permettant de générer automatiquement un plus grand nombre de paires question-réponse non triviales afin d'améliorer les performances des modèles. RGX repose sur une tâche d'extraction de réponse masquée, dans un environnement d'apprentissage interactif comprenant un Reconnaissseur d'entités réponse, un Générateur de questions et un Extracteur de réponse. Étant donné un passage contenant une entité masquée, le générateur formule une question autour de cette entité, tandis que l'extracteur est entraîné à retrouver l'entité masquée à l’aide de la question générée et du texte brut. Ce cadre permet d’entraîner simultanément des modèles de génération de questions et de réponse sur n’importe quelle corrélation de textes, sans nécessiter d’annotations. Les résultats expérimentaux montrent que RGX dépasse les modèles linguistiques préentraînés d’avant-garde (SOTA) et les approches d’apprentissage par transfert sur des benchmarks standards de réponse aux questions, atteignant ainsi une nouvelle performance SOTA sous les contraintes données de taille de modèle et d’apprentissage par transfert.