Sequentielle Inferenzmodelle für die end-to-end-Auswahl von Antworten aufbauen

Dieses Papier stellt ein end-to-end-Antwortselektionsmodell für die erste Spur (Track 1) der 7. Dialogue System Technology Challenges (DSTC7) vor. Diese Aufgabe konzentriert sich darauf, aus einer Menge von Kandidaten das korrekte nächste Äußerung zu wählen, gegeben einen teilweise abgeschlossenen Dialog. Wir schlagen ein auf einem erweiterten sequenziellen Inferenzmodell (ESIM) basierendes end-to-end-Neuronales Netzwerk für diese Aufgabe vor. Unser vorgeschlagenes Modell unterscheidet sich vom ursprünglichen ESIM-Modell in den folgenden vier Aspekten:Erstens wird eine neue Wortrepräsentationsmethode angewendet, die allgemeine vortrainierte Wort-Vektoren mit jenen kombiniert, die auf dem taskspezifischen Trainingsdatensatz geschätzt wurden, um die Herausforderung von außerhalb des Wortschatzes liegenden Wörtern (out-of-vocabulary, OOV) anzugehen.Zweitens wurde ein aufmerksamkeiter hierarchischer rekurrenter Encoder (AHRE) entwickelt, der in der Lage ist, Sätze hierarchisch zu kodieren und durch Aggregation detailliertere Repräsentationen zu generieren.Drittens wird anstelle der einfachen Kombination aus Max-Pooling und Average-Pooling im ursprünglichen ESIM eine neue Pooling-Methode verwendet, die multidimensionales Pooling und Last-State-Pooling kombiniert.Schließlich wurde vor der Softmax-Schicht eine Modifikationsschicht hinzugefügt, um die Bedeutung des letzten Äußerungs im Kontext für die Antwortselektion zu unterstreichen.In den veröffentlichten Evaluationsresultaten der DSTC7 belegte unser vorgeschlagenes Verfahren Rang zwei auf dem Ubuntu-Datensatz und Rang drei auf dem Advising-Datensatz im Unterbereich 1 der ersten Spur (Track 1).