vor 2 Monaten

Wortvektoren für 157 Sprachen lernen

Edouard Grave; Piotr Bojanowski; Prakhar Gupta; Armand Joulin; Tomas Mikolov

Abstract

Verteilte Wortrepräsentationen oder Wortvektoren wurden kürzlich in vielen Aufgaben der natürlichen Sprachverarbeitung eingesetzt und führen zu Spitzenleistungen. Ein entscheidender Faktor für den erfolgreichen Einsatz dieser Repräsentationen ist ihre Ausbildung auf sehr großen Korpora und die Verwendung dieser vortrainierten Modelle in nachgelagerten Aufgaben. In diesem Artikel beschreiben wir, wie wir solche hochwertige Wortrepräsentationen für 157 Sprachen trainiert haben. Wir nutzten zwei Datenquellen, um diese Modelle zu trainieren: die freie Online-Enzyklopädie Wikipedia und Daten aus dem Common Crawl-Projekt. Des Weiteren stellen wir drei neue Datensätze für Wortanaloga vor, um diese Wortvektoren zu evaluieren, speziell für Französisch, Hindi und Polnisch. Schließlich bewerten wir unsere vortrainierten Wortvektoren anhand von 10 Sprachen, für die Evaluationsdatensätze existieren, wobei sich eine sehr starke Leistung im Vergleich zu früheren Modellen zeigt.