Mit Mehr Kontexten Kommt Bessere Leistung: Kontextualisierte Sinn-Embeddings für die Allgemeine Wortbedeutungsentwicklung

Kontextualisierte Wortembeddings wurden effektiv in mehreren Aufgaben des Natural Language Processing eingesetzt, da sich gezeigt hat, dass sie nützliche semantische Informationen enthalten. Dennoch bleibt es schwierig, sie mit strukturierten Wissensquellen zu verknüpfen. In diesem Artikel stellen wir ARES (context-AwaRe Embeddings of Senses) vor, einen semi-supervised Ansatz zur Erzeugung von Sinn-Embeddings für die lexikalischen Bedeutungen innerhalb einer lexikalischen Wissensbasis, die in einem Raum liegen, der mit dem von kontextualisierten Wortvektoren vergleichbar ist. ARES-Repräsentationen ermöglichen es einem einfachen 1-Nearest-Neighbour-Algorithmus, sowohl im englischen als auch im mehrsprachigen Aufgabenfeld der Wortbedeutungsdisambiguierung state-of-the-art-Modelle zu übertrumpfen, wobei lediglich auf sinnannotierten Daten im Englischen trainiert wird. Wir bewerten zudem die Qualität unserer Embeddings im Word-in-Context-Aufgabenfeld, wo sie als externe Wissensquelle eingesetzt werden und die Leistung eines neuronalen Modells konsistent verbessern, sodass es mit komplexeren Architekturen konkurrieren kann. Die ARES-Embeddings für alle WordNet-Konzepte sowie die automatisch extrahierten Kontexte, die zur Erstellung der Sinnrepräsentationen verwendet wurden, sind kostenlos unter http://sensembert.org/ares verfügbar.