il y a 13 jours

FlowSeq : Génération conditionnelle de séquences non-autorégressive à l’aide d’un flux génératif

Xuezhe Ma, Chunting Zhou, Xian Li, Graham Neubig, Eduard Hovy

Résumé

La plupart des modèles de séquence à séquence (seq2seq) sont autoregressifs : ils génèrent chaque token en conditionnant sur les tokens précédemment générés. En revanche, les modèles non autoregressifs de séquence à séquence génèrent tous les tokens en une seule passe, ce qui améliore significativement l'efficacité grâce au traitement parallèle sur des matériels tels que les GPU. Toutefois, modéliser directement la distribution conjointe de tous les tokens simultanément s'avère difficile, et même avec des architectures de modèles de plus en plus complexes, la précision reste nettement inférieure à celle des modèles autoregressifs. Dans cet article, nous proposons un modèle simple, efficace et performant pour la génération de séquences non autoregressive basé sur des modèles à variables latentes. Plus précisément, nous nous appuyons sur les flux génératifs, une technique élégante pour modéliser des distributions complexes à l’aide de réseaux neuronaux, et concevons plusieurs couches de flux spécifiquement adaptées à la modélisation de la densité conditionnelle des variables latentes séquentielles. Nous évaluons ce modèle sur trois jeux de données standard de traduction automatique neuronale (NMT), obtenant des performances comparables à celles des meilleurs modèles non autoregressifs actuels, avec un temps de décodage presque constant en fonction de la longueur de la séquence.