HyperAIHyperAI
il y a 18 jours

PhraseTransformer : Une intégration des informations contextuelles locales dans le traitement sémantique séquentiel

{Minh Le Nguyen, Vu Tran, Huy Tien Nguyen, Tung Le, Phuong Minh Nguyen}
Résumé

La transformation sémantique est une tâche exigeante qui consiste à mapper une énoncé en langage naturel à une représentation d’information compréhensible par une machine. Récemment, les approches fondées sur la traduction automatique par machines neuronales (NMT) ont obtenu de nombreux résultats prometteurs, notamment grâce au modèle Transformer. Toutefois, un inconvénient majeur de l’adaptation du Transformer classique à la transformation sémantique réside dans le fait qu’il ne prend pas en compte les phrases dans la représentation de l’information des énoncés, alors que les phrases jouent un rôle crucial dans la construction du sens d’une phrase. Ainsi, nous proposons une architecture appelée PhraseTransformer, capable d’une représentation sémantique plus fine en apprenant les dépendances entre phrases au sein d’une phrase. L’idée principale consiste à intégrer un mécanisme de mémoire à long et court terme (LSTM) dans le mécanisme d’attention auto-associative du Transformer original afin de capturer le contexte local d’un mot. Les résultats expérimentaux montrent que notre modèle proposé surpasse le Transformer original en termes de compréhension de la structure des phrases, de représentation logique, et améliore sensiblement la prise en compte du contexte local, sans recourir à des informations externes sous forme d’arbre. Par ailleurs, bien que l’architecture récurrente soit intégrée, le nombre d’opérations séquentielles du PhraseTransformer reste en (1), similaire à celui du Transformer original. Notre modèle atteint des performances fortes et compétitives sur les jeux de données Geo et MSParS, et réalise un état de l’art (SOTA) sur le jeu de données Atis pour les méthodes basées sur les réseaux neuronaux. En outre, pour démontrer la généralisation de notre modèle, nous avons mené des expériences étendues sur trois jeux de données de traduction : IWLST14 (allemand-anglais), IWSLT15 (vietnamien-anglais) et WMT14 (anglais-allemand), où des améliorations significatives ont été observées. Le code de notre modèle est disponible à l’adresse suivante : https://github.com/phuongnm94/PhraseTransformer.git.