HyperAIHyperAI

Command Palette

Search for a command to run...

Wortvektoren für 157 Sprachen lernen

Edouard Grave Piotr Bojanowski Prakhar Gupta Armand Joulin Tomas Mikolov

Zusammenfassung

Verteilte Wortrepräsentationen oder Wortvektoren wurden kürzlich in vielen Aufgaben der natürlichen Sprachverarbeitung eingesetzt und führen zu Spitzenleistungen. Ein entscheidender Faktor für den erfolgreichen Einsatz dieser Repräsentationen ist ihre Ausbildung auf sehr großen Korpora und die Verwendung dieser vortrainierten Modelle in nachgelagerten Aufgaben. In diesem Artikel beschreiben wir, wie wir solche hochwertige Wortrepräsentationen für 157 Sprachen trainiert haben. Wir nutzten zwei Datenquellen, um diese Modelle zu trainieren: die freie Online-Enzyklopädie Wikipedia und Daten aus dem Common Crawl-Projekt. Des Weiteren stellen wir drei neue Datensätze für Wortanaloga vor, um diese Wortvektoren zu evaluieren, speziell für Französisch, Hindi und Polnisch. Schließlich bewerten wir unsere vortrainierten Wortvektoren anhand von 10 Sprachen, für die Evaluationsdatensätze existieren, wobei sich eine sehr starke Leistung im Vergleich zu früheren Modellen zeigt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp