vor einem Monat

Wortvektoren mit Subwörternformation anreichern

Piotr Bojanowski; Edouard Grave; Armand Joulin; Tomas Mikolov

Abstract

Stetige Wortrepräsentationen, die auf großen nicht annotierten Korpora trainiert werden, sind für viele Aufgaben der natürlichen Sprachverarbeitung nützlich. Beliebte Modelle, die solche Repräsentationen lernen, ignorieren die Morphologie der Wörter, indem sie jedem Wort einen eigenen Vektor zuordnen. Dies ist eine Einschränkung, insbesondere für Sprachen mit großen Wortschatzen und vielen seltenen Wörtern. In dieser Arbeit schlagen wir einen neuen Ansatz vor, der auf dem Skipgram-Modell basiert, bei dem jedes Wort als eine Menge von Zeichen $n$-Grammen dargestellt wird. Jedes Zeichen $n$-Gramm wird durch eine Vektordarstellung repräsentiert; Wörter werden als die Summe dieser Repräsentationen dargestellt. Unsere Methode ist schnell und ermöglicht es uns, Modelle auf großen Korpora rasch zu trainieren und auch Wortrepräsentationen für Wörter zu berechnen, die nicht in den Trainingsdaten vorkamen. Wir evaluieren unsere Wortrepräsentationen auf neun verschiedenen Sprachen sowohl in Aufgaben zur Wortsimilarität als auch zu Analogien. Durch Vergleich mit kürzlich vorgeschlagenen morphologischen Wortrepräsentationen zeigen wir, dass unsere Vektoren den aktuellen Stand der Technik in diesen Aufgaben erreichen.