il y a 11 jours

TRANS-BLSTM : Transformer avec LSTM bidirectionnel pour la compréhension du langage

Zhiheng Huang, Peng Xu, Davis Liang, Ajay Mishra, Bing Xiang

Résumé

Les représentations bidirectionnelles d’encodeurs à partir des transformateurs (BERT) ont récemment atteint des performances de pointe sur une large gamme de tâches de traitement du langage naturel, notamment la classification de phrases, la traduction automatique et la réponse aux questions. L’architecture du modèle BERT s’inspire principalement du transformateur. Avant l’ère du transformateur, les réseaux de mémoire à long terme bidirectionnels (BLSTM) constituaient l’architecture dominante pour la traduction automatique neuronale et la réponse aux questions. Dans ce travail, nous explorons la manière dont ces deux approches de modélisation peuvent être combinées afin de concevoir une architecture de modèle plus puissante. Nous proposons une nouvelle architecture, désignée par TRANS-BLSTM, qui intègre une couche BLSTM à chaque bloc du transformateur, offrant ainsi un cadre de modélisation conjointe entre le transformateur et le BLSTM. Nous démontrons que les modèles TRANS-BLSTM améliorent de manière cohérente la précision par rapport aux modèles de base BERT dans les expériences sur GLUE et SQuAD 1.1. Notre modèle TRANS-BLSTM atteint un score F1 de 94,01 % sur le jeu de données de développement de SQuAD 1.1, résultat comparable aux performances les plus avancées de l’état de l’art.