HyperAIHyperAI
il y a 17 jours

RocketQA : Une approche d'entraînement optimisée pour la récupération de passages denses dans le cadre de la réponse à des questions sur domaine ouvert

Yingqi Qu, Yuchen Ding, Jing Liu, Kai Liu, Ruiyang Ren, Wayne Xin Zhao, Daxiang Dong, Hua Wu, Haifeng Wang
RocketQA : Une approche d'entraînement optimisée pour la récupération de passages denses dans le cadre de la réponse à des questions sur domaine ouvert
Résumé

Dans la réponse à des questions dans un domaine ouvert, la récupération de passages denses est devenue un nouveau paradigme pour extraire des passages pertinents afin de trouver des réponses. En général, l'architecture à double encodeur est adoptée afin d'apprendre des représentations denses pour les questions et les passages, afin d’assurer un alignement sémantique. Toutefois, il est difficile d’entraîner efficacement un modèle à double encodeur en raison de défis tels que le désaccord entre l’entraînement et l’inférence, la présence de positifs non étiquetés, ainsi que la limitation des données d’entraînement. Pour surmonter ces difficultés, nous proposons une approche d’entraînement optimisée, appelée RocketQA, visant à améliorer la récupération de passages denses. RocketQA apporte trois contributions techniques majeures : des négatifs croisés entre lots, des négatifs durs désébruités et une augmentation de données. Les résultats expérimentaux montrent que RocketQA dépasse significativement les modèles précédents de l’état de l’art sur les jeux de données MSMARCO et Natural Questions. Nous menons également des expériences étendues pour évaluer l’efficacité des trois stratégies proposées. En outre, nous démontrons que la performance d’un système de question-réponse end-to-end peut être améliorée en s’appuyant sur notre récupérateur RocketQA.