Apprentissage de la génération de questions par la récupération de phrases contenant les réponses

Pour entraîner un modèle de réponse à des questions basé sur la compréhension de lecture automatique (MRC), une importante quantité d’efforts est nécessaire pour préparer des données d’entraînement annotées, composées de questions et de leurs réponses tirées de contextes donnés. Afin de réduire ce problème, les recherches récentes se sont concentrées sur la génération synthétique de questions à partir d’un contexte donné et d’une réponse annotée (ou générée), en entraînant un modèle générateur supplémentaire, pouvant être utilisé pour enrichir les données d’entraînement. Dans le cadre de cette orientation, nous proposons une nouvelle approche de pré-entraînement qui apprend à générer des questions riches en contexte en récupérant les phrases contenant les réponses. Notre méthode repose sur deux composants novateurs : (1) la détermination dynamique de K réponses à partir d’un document donné, et (2) le pré-entraînement du générateur de questions sur la tâche de génération de phrases contenant les réponses. Nous évaluons notre méthode par rapport aux approches existantes, en mesurant la qualité des questions générées ainsi que la précision du modèle MRC finement ajusté après entraînement sur des données générées de manière synthétique par notre méthode. Les résultats expérimentaux démontrent que notre approche améliore de manière cohérente la capacité de génération de questions des modèles existants tels que UniLM, obtient des résultats de pointe sur les jeux de données MS MARCO et NewsQA, et des performances comparables aux meilleures méthodes sur SQuAD. En outre, nous montrons que les données générées de manière synthétique par notre approche sont bénéfiques pour améliorer significativement la précision du modèle MRC en aval sur une large gamme de jeux de données, tels que SQuAD-v1.1, v2.0 et KorQuAD, sans nécessiter aucune modification des modèles MRC existants. Enfin, nos expériences mettent en évidence que notre méthode se distingue particulièrement lorsque la quantité de données d’entraînement est limitée, tant au niveau du pré-entraînement que pour les données MRC en aval.