Def2Vec: Erweiterbare Wortembeddings aus Wörterbuchdefinitionen
{Roberto Tedesco Vincenzo Scotti Irene Morazzoni}

Abstract
Def2Vec stellt ein neuartiges Paradigma für Wort-Embeddings vor, das Wörterbuchdefinitionen nutzt, um semantische Repräsentationen zu erlernen. Durch die Erstellung von Term-Dokument-Matrizen aus Definitionen und die Anwendung der Latent Semantic Analysis (LSA) generiert Def2Vec Embeddings, die sowohl eine hohe Leistungsfähigkeit als auch eine hohe Erweiterbarkeit aufweisen. In Evaluierungen, die Part-of-Speech-Tagging, Named Entity Recognition, Chunking sowie semantische Ähnlichkeit umfassen, erreicht Def2Vec häufig die Leistungsfähigkeit oder übertrifft sogar state-of-the-art-Modelle wie Word2Vec, GloVe und fastText. Der zweite faktorisierte Matrix-Output unseres Modells aus der LSA ermöglicht eine effiziente Erweiterung der Embeddings für Wörter außerhalb des Vokabulars (out-of-vocabulary). Durch die effektive Kombination der Vorteile von Wörterbuchdefinitionen mit LSA-basierten Embeddings erzielt Def2Vec informative semantische Repräsentationen, insbesondere unter Berücksichtigung der reduzierten Datenanforderungen. Dieser Beitrag trägt zur Vertiefung des Verständnisses der Erzeugung von Wort-Embeddings bei, indem strukturierte lexikalische Informationen und eine effiziente Erweiterbarkeit von Embeddings integriert werden.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| chunking-on-conll-2003 | Def2Vec | AUC: 93.07 Accuracy: 77.69 F1: 81.45 Precision: 86.56 Recall: 77.69 |
| ner-on-conll-2003-1 | Def2Vec | AUC: 96.28 Accuracy: 71.98 F1: 83.09 Precision: 99.28 Recall: 71.98 |
| semantic-textual-similarity-on-sts-benchmark | Def2Vec | Spearman Correlation: 0.6372 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.