HyperAIHyperAI

Command Palette

Search for a command to run...

Wortvektoren mit Subwörternformation anreichern

Piotr Bojanowski* Edouard Grave* Armand Joulin Tomas Mikolov

Zusammenfassung

Stetige Wortrepräsentationen, die auf großen nicht annotierten Korpora trainiert werden, sind für viele Aufgaben der natürlichen Sprachverarbeitung nützlich. Beliebte Modelle, die solche Repräsentationen lernen, ignorieren die Morphologie der Wörter, indem sie jedem Wort einen eigenen Vektor zuordnen. Dies ist eine Einschränkung, insbesondere für Sprachen mit großen Wortschatzen und vielen seltenen Wörtern. In dieser Arbeit schlagen wir einen neuen Ansatz vor, der auf dem Skipgram-Modell basiert, bei dem jedes Wort als eine Menge von Zeichen nnn-Grammen dargestellt wird. Jedes Zeichen nnn-Gramm wird durch eine Vektordarstellung repräsentiert; Wörter werden als die Summe dieser Repräsentationen dargestellt. Unsere Methode ist schnell und ermöglicht es uns, Modelle auf großen Korpora rasch zu trainieren und auch Wortrepräsentationen für Wörter zu berechnen, die nicht in den Trainingsdaten vorkamen. Wir evaluieren unsere Wortrepräsentationen auf neun verschiedenen Sprachen sowohl in Aufgaben zur Wortsimilarität als auch zu Analogien. Durch Vergleich mit kürzlich vorgeschlagenen morphologischen Wortrepräsentationen zeigen wir, dass unsere Vektoren den aktuellen Stand der Technik in diesen Aufgaben erreichen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Wortvektoren mit Subwörternformation anreichern | Paper | HyperAI