Verbesserung der Paraphrasenerkennung durch die adversarische Paraphrasieraufgabe

Wenn zwei Sätze dieselbe Bedeutung haben, sollte sich ergeben, dass sie bezüglich ihrer inferentiellen Eigenschaften äquivalent sind, d. h., jeder Satz sollte den anderen textuell implizieren. Doch viele der derzeit weit verbreiteten Paraphrasen-Datensätze basieren auf einer Vorstellung von Paraphrasierung, die auf Wortüberlappung und Syntax beruht. Können wir diese Datensätze stattdessen so trainieren, dass sie Paraphrasen anhand der inferentiellen Eigenschaften der Sätze erkennen, ohne sich übermäßig auf lexikalische und syntaktische Ähnlichkeiten zwischen Satzpaaren zu stützen? Wir wenden das adversarielle Paradigma auf diese Frage an und stellen eine neue adversarielle Methode zur Datensatzgenerierung für die Paraphrasenerkennung vor: die adversarielle Paraphrasieraufgabe (Adversarial Paraphrasing Task, APT), bei der Teilnehmer semantisch äquivalente (im Sinne wechselseitiger Implikation) aber lexikalisch und syntaktisch unterschiedliche Paraphrasen erstellen sollen. Diese Satzpaare können anschließend sowohl zur Testung von Paraphrasenerkennungsmodellen verwendet werden (die dabei nur knapp zufällige Genauigkeit erzielen) als auch zur Verbesserung ihrer Leistungsfähigkeit. Um die Datensatzgenerierung zu beschleunigen, untersuchen wir die Automatisierung der APT mittels T5 und zeigen, dass der resultierende Datensatz ebenfalls die Genauigkeit steigert. Wir diskutieren die Implikationen für die Paraphrasenerkennung und veröffentlichen unseren Datensatz, um zu erreichen, dass Paraphrasenerkennungsmodelle besser in der Lage sind, Sinnäquivalenz auf Satzebene zu detektieren.