Def2Vec: Erweiterbare Wortembeddings aus Wörterbuchdefinitionen

Def2Vec stellt ein neuartiges Paradigma für Wort-Embeddings vor, das Wörterbuchdefinitionen nutzt, um semantische Repräsentationen zu erlernen. Durch die Erstellung von Term-Dokument-Matrizen aus Definitionen und die Anwendung der Latent Semantic Analysis (LSA) generiert Def2Vec Embeddings, die sowohl eine hohe Leistungsfähigkeit als auch eine hohe Erweiterbarkeit aufweisen. In Evaluierungen, die Part-of-Speech-Tagging, Named Entity Recognition, Chunking sowie semantische Ähnlichkeit umfassen, erreicht Def2Vec häufig die Leistungsfähigkeit oder übertrifft sogar state-of-the-art-Modelle wie Word2Vec, GloVe und fastText. Der zweite faktorisierte Matrix-Output unseres Modells aus der LSA ermöglicht eine effiziente Erweiterung der Embeddings für Wörter außerhalb des Vokabulars (out-of-vocabulary). Durch die effektive Kombination der Vorteile von Wörterbuchdefinitionen mit LSA-basierten Embeddings erzielt Def2Vec informative semantische Repräsentationen, insbesondere unter Berücksichtigung der reduzierten Datenanforderungen. Dieser Beitrag trägt zur Vertiefung des Verständnisses der Erzeugung von Wort-Embeddings bei, indem strukturierte lexikalische Informationen und eine effiziente Erweiterbarkeit von Embeddings integriert werden.