WiC: das Word-in-Context-Datensatz für die Bewertung kontextsensitiver Bedeutungsdarstellungen

Durch ihre Konstruktion sind Wort-Einbettungen (word embeddings) nicht in der Lage, die dynamische Natur der Semantik von Wörtern zu modellieren, d. h. die Eigenschaft von Wörtern, potenziell unterschiedliche Bedeutungen zu haben. Um diese Einschränkung zu beheben, wurden zahlreiche spezialisierte Techniken zur Bedeutungsrepräsentation vorgeschlagen, wie z. B. Sinne- oder kontextualisierte Einbettungen (sense or contextualized embeddings). Dennoch existieren trotz der Popularität der Forschung auf diesem Gebiet sehr wenige Bewertungsbenchmarks, die sich speziell auf die dynamische Semantik von Wörtern konzentrieren. In dieser Arbeit zeigen wir, dass bestehende Modelle das Leistungsmaximum des Standard-Bewertungssatzes für diesen Zweck übertroffen haben, nämlich den Stanford Contextual Word Similarity-Datensatz (Stanford Contextual Word Similarity), und wir betonen dessen Mängel. Um das Fehlen eines geeigneten Benchmarks zu beheben, stellen wir einen umfangreichen Datensatz „Word in Context“ (WiC) vor, der auf Annotationen basiert, die von Experten zusammengestellt wurden, und für eine generische Bewertung kontextsensitiver Repräsentationen gedacht ist. WiC ist unter https://pilehvar.github.io/wic/ verfügbar.