Satzähnlichkeitslernen durch lexikalische Zerlegung und Komposition

Die meisten konventionellen Methoden zur Bestimmung der Satzähnlichkeit konzentrieren sich nur auf die ähnlichen Teile von zwei Eingabesätzen und ignorieren dabei die unähnlichen Teile, die uns oft wichtige Hinweise und semantische Bedeutungen über die Sätze liefern. In dieser Arbeit schlagen wir ein Modell vor, das sowohl Ähnlichkeiten als auch Unähnlichkeiten berücksichtigt, indem es lexikalische Semantik in den Sätzen zerlegt und wieder zusammensetzt. Das Modell stellt jedes Wort als Vektor dar und berechnet für jedes Wort einen semantischen Übereinstimmungsvektor basierend auf allen Wörtern des anderen Satzes. Anschließend wird jeder Wortvektor in eine ähnliche Komponente und eine unähnliche Komponente zerlegt, basierend auf dem semantischen Übereinstimmungsvektor. Danach wird ein zweikanaliges CNN-Modell (Convolutional Neural Network) verwendet, um Merkmale durch die Zusammensetzung der ähnlichen und unähren Komponenten zu erfassen. Schließlich wird ein Ähnlichkeitswert über die zusammengesetzten Merkmalsvektoren geschätzt. Die experimentellen Ergebnisse zeigen, dass unser Modell den aktuellen Stand der Technik in der Aufgabe der Auswahl von Antwortsätzen erreicht und vergleichbare Ergebnisse bei der Paraphrasenerkennung erzielt.