Ein gemeinsames Modell zur Wiederherstellung ausgelassener Pronomen und zur Analyse konversationeller Diskurse im Chinesischen Gesprächssprache

In diesem Paper stellen wir ein neuronales Modell für die gemeinsame Wiederherstellung ausgelassener Pronomen (Dropped Pronoun Recovery, DPR) und die Analyse conversationaler Diskursstruktur (Conversational Discourse Parsing, CDP) im Chinesischen conversationalen Sprachgebrauch vor. Wir zeigen, dass DPR und CDP eng miteinander verknüpft sind und dass ein gemeinsames Modell beide Aufgaben profitieren lässt. Wir bezeichnen unser Modell als DiscProReco. Zunächst codiert es die Tokens in jeder Äußerung einer Konversation mittels eines gerichteten Graphen-Convolutional Networks (GCN). Anschließend werden die Token-Zustände einer Äußerung aggregiert, um für jede Äußerung einen einzigen Zustand zu erzeugen. Diese Äußerungs-Zustände werden dann in einen Biaffinen Klassifikator eingespeist, um einen conversationalen Diskursgraphen zu konstruieren. Anschließend wird ein zweites (multi-relationales) GCN auf die Äußerungs-Zustände angewendet, um eine diskursrelationen-erweiterte Repräsentation der Äußerungen zu generieren, die anschließend mit den Token-Zuständen innerhalb jeder Äußerung fusioniert werden, um als Eingabe für die Schicht zur Wiederherstellung ausgelassener Pronomen zu dienen. Das gemeinsame Modell wird auf einem neuen, durch Strukturanalyse verbesserten Datensatz zur Wiederherstellung ausgelassener Pronomen (Structure Parsing-enhanced Dropped Pronoun Recovery, SPDPR) trainiert und evaluiert, den wir mit zwei Arten von Informationen annotiert haben. Experimentelle Ergebnisse auf dem SPDPR-Datensatz und weiteren Benchmarks zeigen, dass DiscProReco die derzeit besten Ansätze beider Aufgaben signifikant übertrifft.