Lexikalische semantische Erkennung

In der lexikalischen Semantik werden die vollständige Satzsegmentierung und die Segmentmarkierung verschiedener Phänomene generell getrennt behandelt, obwohl sie wechselseitig abhängig sind. Wir vermuten, dass eine einheitliche Aufgabe zur lexikalischen Semantikerkennung eine effektive Methode darstellt, um bisher getrennte Annotationstypen – einschließlich der Identifikation und Klassifikation von Mehrwortausdrücken sowie der Supersense-Tagging – zu integrieren. Anhand der STREUSLE-Korpus-Daten trainieren wir einen neuronalen CRF-Sequenztagger und evaluieren dessen Leistung entlang verschiedener Annotationsebenen. Da das Label-Set diejenigen früherer Aufgaben (PARSEME, DiMSUM) verallgemeinert, bewerten wir zudem, wie gut das Modell auf diesen Testsets generalisiert, und finden, dass es trotz Trainings ausschließlich auf STREUSLE die Leistung bestehender Modelle erreicht oder sogar übertreffen kann. Unser Beitrag etabliert zudem Basismodelle und Bewertungsmetriken für die integrierte und präzise Modellierung lexikalischer Semantik und erleichtert so zukünftige Forschungsarbeiten auf diesem Gebiet.