HyperAI

Abstract

Def2Vec stellt ein neuartiges Paradigma für Wort-Embeddings vor, das Wörterbuchdefinitionen nutzt, um semantische Repräsentationen zu erlernen. Durch die Erstellung von Term-Dokument-Matrizen aus Definitionen und die Anwendung der Latent Semantic Analysis (LSA) generiert Def2Vec Embeddings, die sowohl eine hohe Leistungsfähigkeit als auch eine hohe Erweiterbarkeit aufweisen. In Evaluierungen, die Part-of-Speech-Tagging, Named Entity Recognition, Chunking sowie semantische Ähnlichkeit umfassen, erreicht Def2Vec häufig die Leistungsfähigkeit oder übertrifft sogar state-of-the-art-Modelle wie Word2Vec, GloVe und fastText. Der zweite faktorisierte Matrix-Output unseres Modells aus der LSA ermöglicht eine effiziente Erweiterung der Embeddings für Wörter außerhalb des Vokabulars (out-of-vocabulary). Durch die effektive Kombination der Vorteile von Wörterbuchdefinitionen mit LSA-basierten Embeddings erzielt Def2Vec informative semantische Repräsentationen, insbesondere unter Berücksichtigung der reduzierten Datenanforderungen. Dieser Beitrag trägt zur Vertiefung des Verständnisses der Erzeugung von Wort-Embeddings bei, indem strukturierte lexikalische Informationen und eine effiziente Erweiterbarkeit von Embeddings integriert werden.

Benchmarks

Benchmark	Methodik	Metriken
chunking-on-conll-2003	Def2Vec	AUC: 93.07 Accuracy: 77.69 F1: 81.45 Precision: 86.56 Recall: 77.69
ner-on-conll-2003-1	Def2Vec	AUC: 96.28 Accuracy: 71.98 F1: 83.09 Precision: 99.28 Recall: 71.98
semantic-textual-similarity-on-sts-benchmark	Def2Vec	Spearman Correlation: 0.6372

Def2Vec: Erweiterbare Wortembeddings aus Wörterbuchdefinitionen

{Roberto Tedesco Vincenzo Scotti Irene Morazzoni}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Def2Vec: Erweiterbare Wortembeddings aus Wörterbuchdefinitionen

{Roberto Tedesco Vincenzo Scotti Irene Morazzoni}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters