il y a 17 jours

Amélioration de la conditionnalité dans les modèles séquentiels contextuels à architecture sequence à sequence

Xinyi Wang, Jason Weston, Michael Auli, Yacine Jernite

Résumé

Les modèles séquentiels à séquence de neurones sont bien établis pour les applications pouvant être formulées comme une transformation d'une seule séquence d'entrée en une seule séquence de sortie. Dans ce travail, nous nous concentrons sur les cas où la génération dépend à la fois d'une courte requête et d'un long contexte, tels que la réponse abstraite aux questions ou la traduction à l'échelle du document. Nous modifions l'approche standard séquence à séquence afin d'utiliser de manière plus efficace à la fois la requête et le contexte, en étendant le mécanisme d'attention pour intégrer de manière intriquée l'attention portée à la fois à la requête et au contexte. Nous introduisons également une méthode simple et efficace d'augmentation de données pour le modèle proposé. Des expériences menées sur trois tâches différentes montrent que ces deux améliorations conduisent à des gains constants.