Mehrsprachige Modelle für kompositionale verteilte Semantik

Wir präsentieren eine neuartige Technik zum Lernen semantischer Repräsentationen, die die Verteilungshypothese auf mehrsprachige Daten und gemeinsame Raum-Einbettungen erweitert. Unsere Modelle nutzen parallele Daten und lernen, die Einbettungen semantisch äquivalenter Sätze stark zu alignen (ausrichten), während sie gleichzeitig ausreichend großen Abstand zwischen den Einbettungen unähnlicher Sätze wahren. Die Modelle basieren nicht auf Wortalignments oder syntaktischen Informationen und werden erfolgreich auf eine Reihe verschiedener Sprachen angewendet. Wir erweitern unseren Ansatz auch, um semantische Repräsentationen auf Dokumentenebene zu lernen. Diese Modelle werden an zwei kreuzsprachlichen Dokumentklassifikationsaufgaben evaluiert, bei denen sie den bisherigen Stand der Technik übertreffen. Durch qualitative Analyse und die Untersuchung von Pivoting-Effekten zeigen wir, dass unsere Repräsentationen semantisch plausibel sind und semantische Beziehungen zwischen Sprachen ohne parallele Daten erfassen können.