HyperAIHyperAI
il y a 17 jours

LIQUID : Un cadre pour la génération de jeux de données pour la réponse à des questions sous forme de liste

Seongyun Lee, Hyunjae Kim, Jaewoo Kang
LIQUID : Un cadre pour la génération de jeux de données pour la réponse à des questions sous forme de liste
Résumé

Les modèles de réponse aux questions (QA) reposent souvent sur des jeux de données d'entraînement à grande échelle, ce qui impose le développement d'un cadre de génération de données afin de réduire les coûts liés aux annotations manuelles. Bien que plusieurs études récentes aient visé à générer des questions synthétiques avec des réponses sur un seul segment, aucune recherche n'a été menée sur la création de questions en liste comportant des réponses constituées de segments multiples et non contigus. Pour combler cette lacune, nous proposons LIQUID, un cadre automatisé pour générer des jeux de données QA en liste à partir de corpus non étiquetés. Nous commençons par transformer un passage provenant de Wikipedia ou de PubMed en un résumé, puis extrayons les entités nommées à partir du texte résumé afin d'en faire des candidats à la réponse. Cette approche permet de sélectionner des réponses sémantiquement corrélées dans leur contexte, ce qui les rend particulièrement adaptées à la construction de questions en liste. Ensuite, nous générons des questions à l’aide d’un générateur de questions disponible en libre-service, en utilisant les entités extraites ainsi que le passage original. Enfin, nous appliquons un filtrage itératif et une extension des réponses pour garantir l’exactitude et la complétude des réponses. Grâce à nos données synthétiques, nous améliorons significativement les performances des meilleurs modèles précédents en matière de QA en liste, avec des gains de scores F1 exact-match de 5,0 sur MultiSpanQA, 1,9 sur Quoref, et 2,8 en moyenne sur trois benchmarks BioASQ.