Command Palette
Search for a command to run...
Satzähnlichkeitslernen durch lexikalische Zerlegung und Komposition
Satzähnlichkeitslernen durch lexikalische Zerlegung und Komposition
Zhiguo Wang; Haitao Mi; Abraham Ittycheriah
Zusammenfassung
Die meisten konventionellen Methoden zur Bestimmung der Satzähnlichkeit konzentrieren sich nur auf die ähnlichen Teile von zwei Eingabesätzen und ignorieren dabei die unähnlichen Teile, die uns oft wichtige Hinweise und semantische Bedeutungen über die Sätze liefern. In dieser Arbeit schlagen wir ein Modell vor, das sowohl Ähnlichkeiten als auch Unähnlichkeiten berücksichtigt, indem es lexikalische Semantik in den Sätzen zerlegt und wieder zusammensetzt. Das Modell stellt jedes Wort als Vektor dar und berechnet für jedes Wort einen semantischen Übereinstimmungsvektor basierend auf allen Wörtern des anderen Satzes. Anschließend wird jeder Wortvektor in eine ähnliche Komponente und eine unähnliche Komponente zerlegt, basierend auf dem semantischen Übereinstimmungsvektor. Danach wird ein zweikanaliges CNN-Modell (Convolutional Neural Network) verwendet, um Merkmale durch die Zusammensetzung der ähnlichen und unähren Komponenten zu erfassen. Schließlich wird ein Ähnlichkeitswert über die zusammengesetzten Merkmalsvektoren geschätzt. Die experimentellen Ergebnisse zeigen, dass unser Modell den aktuellen Stand der Technik in der Aufgabe der Auswahl von Antwortsätzen erreicht und vergleichbare Ergebnisse bei der Paraphrasenerkennung erzielt.