CTRAN: CNN-Transformer-basiertes Netzwerk für die Verarbeitung natürlicher Sprache

Die Intent-Detektion und Slot-Filling sind die beiden zentralen Aufgaben im Bereich des natürlichen Sprachverstehens. In dieser Studie stellen wir CTRAN vor, eine neuartige Encoder-Decoder-Architektur auf Basis von CNN und Transformer für die Intent-Detektion und Slot-Filling. Im Encoder verwenden wir BERT, gefolgt von mehreren konvolutionellen Schichten, wobei die Ausgabe mittels einer Fenster-Feature-Sequenz neu angeordnet wird. Anschließend setzen wir gestapelte Transformer-Encoder nach der Fenster-Feature-Sequenz ein. Für den Intent-Detektions-Decoder nutzen wir eine Selbst-Attention-Schicht gefolgt von einer linearen Schicht. Im Slot-Filling-Decoder führen wir den ausgerichteten Transformer-Decoder ein, der eine Null-Diagonalmaskierung verwendet, um die Ausgabetags mit den Eingabetokens zu alignen. Wir evaluieren unser Netzwerk auf den Datensätzen ATIS und SNIPS und erreichen auf beiden Datensätzen eine bessere Leistung als die derzeitige State-of-the-Art im Bereich des Slot-Fillings. Zudem integrieren wir das Sprachmodell als Wort-Embeddings und zeigen, dass diese Strategie im Vergleich zur Verwendung des Sprachmodells als Encoder zu besseren Ergebnissen führt.