Macht BERT irgendeinen Sinn? Interpretierbare Wortbedeutungsentwicklung mit kontextualisierten Embeddings

Kontextualisierte Wortembeddings (CWE), wie sie beispielsweise von ELMo (Peters et al., 2018), Flair NLP (Akbik et al., 2018) oder BERT (Devlin et al., 2019) bereitgestellt werden, stellen eine bedeutende jüngste Innovation im Bereich der natürlichen Sprachverarbeitung (NLP) dar. CWE liefern semantische Vektorrepräsentationen von Wörtern, die jeweils vom Kontext abhängen. Ihre Überlegenheit gegenüber statischen Wortembeddings konnte für eine Reihe von Aufgaben nachgewiesen werden, wie beispielsweise Textklassifikation, Sequenztagging oder maschinelle Übersetzung. Da die Vektoren desselben Worttyps je nach Kontext variieren können, implizieren sie eine Art Modell zur Wortsinndisambiguierung (WSD). Wir stellen einen einfachen, jedoch wirksamen Ansatz zur WSD vor, der auf einer Nachbarschaftsklassifikation basiert und auf CWE angewendet wird. Wir vergleichen die Leistung verschiedener CWE-Modelle für diese Aufgabe und können Verbesserungen gegenüber dem aktuellen Stand der Technik für zwei etablierte WSD-Benchmark-Datensätze berichten. Zudem zeigen wir, dass das vortrainierte BERT-Modell in der Lage ist, mehrdeutige Wörter in unterschiedliche „Sinnes“-Regionen des Embedding-Raums zu platzieren, während ELMo und Flair NLP diese Fähigkeit offenbar nicht besitzen.