Ein RNN-Semantikrahmen-Modell basierend auf einem Bimodell für die Absichtserkennung und Slot-Befüllung

Die Absichtserkennung und die Slot-Füllung sind zwei zentrale Aufgaben bei der Erstellung eines Systems zur Verarbeitung gesprochener Sprache (Spoken Language Understanding, SLU). Mehrere Modelle, die auf tiefem Lernen basieren, haben bereits gute Ergebnisse in diesen Aufgaben erzielt. Die effektivsten Algorithmen stützen sich auf die Strukturen von Sequenz-zu-Sequenz-Modellen (oder "Encoder-Decoder"-Modellen) und generieren die Absichten und semantischen Tags entweder mit separaten Modellen oder einem gemeinsamen Modell. Die meisten früheren Studien behandeln jedoch entweder die Absichtserkennung und die Slot-Füllung als zwei getrennte parallele Aufgaben oder verwenden ein Sequenz-zu-Sequenz-Modell, um sowohl semantische Tags als auch Absichten zu generieren. Die meisten dieser Ansätze nutzen ein einzelnes (gemeinsames) neuronales Netzwerk (NN)-basiertes Modell (einschließlich der Encoder-Decoder-Struktur), um beide Aufgaben zu modellieren, was möglicherweise den gegenseitigen Einfluss zwischen ihnen nicht vollständig ausnutzt. In dieser Arbeit wurden neue bimodale RNN-basierte semantische Frame-Parsing-Netzstrukturen entwickelt, um die Absichtserkennung und die Slot-Füllung gemeinsam durchzuführen, indem ihr gegenseitiger Einfluss mithilfe zweier korrelierter bidirektionaler LSTMs (BLSTM) berücksichtigt wird. Unser bimodales Modell mit einem Decoder erreicht den aktuellen Stand der Technik anhand der Benchmark-Daten des ATIS-Datensatzes, wobei eine Verbesserung der Absichtsakuratesse von etwa 0,5 % und eine Verbesserung der Slot-Füllung von 0,9 % festgestellt wurde.