Génération de paires Q/A diverses et cohérentes à partir de contextes avec des VAE conditionnels hiérarchiques maximisant l'information

L'un des défis les plus cruciaux dans le domaine de la réponse aux questions (QA) est la rareté des données étiquetées, car il est coûteux d'obtenir des paires question-réponse (QA) pour un domaine cible de texte grâce à l'annotation manuelle. Une approche alternative pour résoudre ce problème consiste à utiliser des paires QA générées automatiquement, soit à partir du contexte du problème, soit à partir d'une grande quantité de textes non structurés (par exemple, Wikipédia). Dans cette étude, nous proposons un autoencodeur variationnel conditionnel hiérarchique (HCVAE) pour générer des paires QA à partir de textes non structurés en tant que contextes, tout en maximisant l'information mutuelle entre les paires QA générées afin d'assurer leur cohérence. Nous validons notre Information Maximizing Hierarchical Conditional Variational AutoEncoder (Info-HCVAE) sur plusieurs jeux de données de référence en évaluant les performances du modèle QA (BERT-base) uniquement avec les paires QA générées (évaluation basée sur QA) ou en utilisant à la fois les paires générées et celles étiquetées par des humains pour l'entraînement (apprentissage semi-supervisé), par rapport aux modèles de référence les plus avancés. Les résultats montrent que notre modèle obtient des gains de performance impressionnants sur tous les modèles de base dans les deux tâches, en utilisant seulement une fraction des données pour l'entraînement.