Sequenzetikettierung von Dialogakten mit hierarchischem Encoder und CRF

Die Erkennung von Dialogakten ordnet semantische Labels (d.h., Dialogaktionen) den Äußerungen in einem Gespräch zu. Das Problem der Zuordnung von semantischen Labels zu Äußerungen kann als ein sequenzielles Labeling-Problem behandelt werden. In dieser Arbeit bauen wir ein hierarchisches rekurrentes neuronales Netzwerk auf, das bidirektionale LSTMs (Long Short-Term Memory) als Basis und ein bedingtes Markowfeld (Conditional Random Field, CRF) als oberste Schicht verwendet, um jede Äußerung in ihre entsprechende Dialogakt zu klassifizieren. Das hierarchische Netzwerk lernt Darstellungen auf mehreren Ebenen, nämlich auf Wortebene, Äußerungsebene und Gesprächsebene. Die Darstellungen auf Gesprächsebene werden als Eingabe in die CRF-Schicht geleitet, die nicht nur alle vorherigen Äußerungen berücksichtigt, sondern auch deren Dialogakte, wodurch sowohl die Abhängigkeiten zwischen den Labels als auch zwischen den Äußerungen modelliert werden – eine wichtige Überlegung bei natürlichen Dialogen. Wir validieren unseren Ansatz anhand zweier unterschiedlicher Benchmark-Datensätze: Switchboard und Meeting Recorder Dialogue Act. Dabei zeigen wir eine Leistungsverbesserung gegenüber den Stand-of-the-Art-Methoden um 2,2 % und 4,1 % absoluten Punkte, respektive. Es ist erwähnenswert, dass die Inter-Annotator-Übereinstimmung im Switchboard-Datensatz 84 % beträgt und unsere Methode trotz der Ausbildung auf verrauschten Daten eine Genauigkeit von etwa 79 % erreichen kann.