TRANS-BLSTM: Transformer mit bidirektionaler LSTM für die Sprachverstehens

Bidirektionale Encoder-Repräsentationen aus Transformers (BERT) haben kürzlich eine state-of-the-art-Leistung auf einer breiten Palette von NLP-Aufgaben erzielt, darunter Satz-Klassifikation, maschinelle Übersetzung und Fragebeantwortung. Die Architektur des BERT-Modells basiert hauptsächlich auf dem Transformer. Vor der Ära des Transformers war der bidirektionale Long Short-Term Memory (BLSTM)-Ansatz die dominierende Modellarchitektur für neuronale Maschinenübersetzung und Fragebeantwortung. In diesem Paper untersuchen wir, wie diese beiden Modellierungsansätze kombiniert werden können, um eine leistungsfähigere Architektur zu schaffen. Wir schlagen eine neue Architektur vor, die als Transformer mit BLSTM (TRANS-BLSTM) bezeichnet wird und eine BLSTM-Schicht in jeder Transformer-Block integriert, wodurch ein gemeinsames Modellierungsframework für Transformer und BLSTM entsteht. Wir zeigen, dass TRANS-BLSTM-Modelle im Vergleich zu BERT-Baselines in GLUE- und SQuAD 1.1-Experimenten konsistent höhere Genauigkeit erzielen. Unser TRANS-BLSTM-Modell erreicht auf dem SQuAD 1.1-Entwicklungsdataset einen F1-Score von 94,01 %, was mit dem Stand der Technik vergleichbar ist.