HyperAIHyperAI

Command Palette

Search for a command to run...

LIQUID : Un cadre pour la génération de jeux de données pour la réponse à des questions sous forme de liste

Seongyun Lee Hyunjae Kim Jaewoo Kang

Résumé

Les modèles de réponse aux questions (QA) reposent souvent sur des jeux de données d'entraînement à grande échelle, ce qui impose le développement d'un cadre de génération de données afin de réduire les coûts liés aux annotations manuelles. Bien que plusieurs études récentes aient visé à générer des questions synthétiques avec des réponses sur un seul segment, aucune recherche n'a été menée sur la création de questions en liste comportant des réponses constituées de segments multiples et non contigus. Pour combler cette lacune, nous proposons LIQUID, un cadre automatisé pour générer des jeux de données QA en liste à partir de corpus non étiquetés. Nous commençons par transformer un passage provenant de Wikipedia ou de PubMed en un résumé, puis extrayons les entités nommées à partir du texte résumé afin d'en faire des candidats à la réponse. Cette approche permet de sélectionner des réponses sémantiquement corrélées dans leur contexte, ce qui les rend particulièrement adaptées à la construction de questions en liste. Ensuite, nous générons des questions à l’aide d’un générateur de questions disponible en libre-service, en utilisant les entités extraites ainsi que le passage original. Enfin, nous appliquons un filtrage itératif et une extension des réponses pour garantir l’exactitude et la complétude des réponses. Grâce à nos données synthétiques, nous améliorons significativement les performances des meilleurs modèles précédents en matière de QA en liste, avec des gains de scores F1 exact-match de 5,0 sur MultiSpanQA, 1,9 sur Quoref, et 2,8 en moyenne sur trois benchmarks BioASQ.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp