HyperAIHyperAI
vor 2 Monaten

Multilinguale verteilte Repräsentationen ohne Wortausrichtung

Karl Moritz Hermann; Phil Blunsom
Multilinguale verteilte Repräsentationen ohne Wortausrichtung
Abstract

Verteilte Bedeutungsrepräsentationen sind eine natürliche Methode, Kovarianzbeziehungen zwischen Wörtern und Phrasen in der NLP zu kodieren. Durch das Überwinden von Datenknappheitsproblemen und die Bereitstellung von semantischen Beziehungen, die in diskreten Repräsentationen nicht verfügbar sind, haben sich verteilte Repräsentationen als nützlich für viele NLP-Aufgaben erwiesen. Neueste Arbeiten haben gezeigt, wie kompositionale semantische Repräsentationen erfolgreich auf verschiedene einssprachige Anwendungen wie die Stimmungsanalyse angewendet werden können. Gleichzeitig gab es erste Erfolge bei der Arbeit an gemeinsamen Wortebene-Repräsentationen über mehrere Sprachen hinweg. Wir kombinieren diese beiden Ansätze, indem wir eine Methode zur Lernung verteilter Repräsentationen in einem mehrsprachigen Setup vorschlagen. Unser Modell lernt, ähnliche Einbettungen (Embeddings) zuzuweisen, wenn Sätze ausgerichtet sind, und unähnliche Einbettungen, wenn Sätze nicht ausgerichtet sind, wobei keine Wortausrichtung erforderlich ist. Wir zeigen, dass unsere Repräsentationen semantisch informativ sind und sie auf einer quersprachlichen Dokumentklassifikationsaufgabe anwenden, bei der wir den bisherigen Stand der Technik übertreffen. Darüber hinaus stellen wir fest, dass unser Modell durch den Einsatz paralleler Korpora verschiedener Sprachpaare Repräsentationen lernt, die semantische Beziehungen auch für Sprachen erfassen können, für die keine parallelen Daten verwendet wurden.

Multilinguale verteilte Repräsentationen ohne Wortausrichtung | Neueste Forschungsarbeiten | HyperAI