Dialogakt-Erkennung durch CRF-attentives strukturiertes Netzwerk

Die Erkennung von Dialogakten (DAR) ist ein anspruchsvolles Problem bei der Interpretation von Dialogen, das darauf abzielt, semantische Labels an Äußerungen anzuhängen und die Absicht des Sprechers zu charakterisieren. Derzeit formulieren viele existierende Ansätze das Problem der DAR, beginnend mit Multi-Klassifikation bis hin zur strukturierten Vorhersage, wobei sie unter manuell erstellten Merkmalsausdehnungen und aufmerksamen kontextuellen strukturellen Abhängigkeiten leiden. In dieser Arbeit betrachten wir das Problem der DAR aus der Perspektive der Erweiterung reichhaltigerer bedingter Zufallsfelder (CRF) struktureller Abhängigkeiten ohne den end-to-end-Training aufzugeben. Wir integrieren hierarchische semantische Inferenz mit einem Speichermechanismus in die Modellierung von Äußerungen. Anschließend erweitern wir das strukturierte Aufmerksamkeitsnetzwerk auf die lineare Kette des konditionellen Zufallsfeldes (linear-chain CRF), welche sowohl kontextuelle Äußerungen als auch entsprechende Dialogakte berücksichtigt. Ausführliche Experimente mit den beiden wichtigsten Benchmark-Datensätzen, dem Switchboard Dialogue Act (SWDA) Datensatz und dem Meeting Recorder Dialogue Act (MRDA) Datensatz, zeigen, dass unsere Methode eine bessere Leistung als andere state-of-the-art-Lösungen für das Problem erzielt. Bemerkenswert ist, dass unsere Methode nahezu der Leistung menschlicher Annotatoren auf SWDA entspricht, mit einem Abstand von weniger als 2%.