HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de la conditionnalité dans les modèles séquentiels contextuels à architecture sequence à sequence

Xinyi Wang Jason Weston Michael Auli Yacine Jernite

Résumé

Les modèles séquentiels à séquence de neurones sont bien établis pour les applications pouvant être formulées comme une transformation d'une seule séquence d'entrée en une seule séquence de sortie. Dans ce travail, nous nous concentrons sur les cas où la génération dépend à la fois d'une courte requête et d'un long contexte, tels que la réponse abstraite aux questions ou la traduction à l'échelle du document. Nous modifions l'approche standard séquence à séquence afin d'utiliser de manière plus efficace à la fois la requête et le contexte, en étendant le mécanisme d'attention pour intégrer de manière intriquée l'attention portée à la fois à la requête et au contexte. Nous introduisons également une méthode simple et efficace d'augmentation de données pour le modèle proposé. Des expériences menées sur trois tâches différentes montrent que ces deux améliorations conduisent à des gains constants.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp