Transformer-basierte benannte EntitätsErkennung mit kombinierter Datenrepräsentation

Diese Studie untersucht transformerbasierte Modelle und ihre Wirksamkeit bei Aufgaben der benannten Entitätserkennung (Named Entity Recognition, NER). Dabei werden verschiedene Strategien zur Datenrepräsentation analysiert, nämlich die Einzelsatz-, die Zusammengeführte und die Kontextstrategie, die jeweils jeweils eine Satz, mehrere Sätze oder Sätze, die mittels Aufmerksamkeit mit Kontext verknüpft sind, pro Vektor verwenden. Die Analyse zeigt, dass die Anwendung eines einzelnen Repräsentationsansatzes während des Trainings zu einer schlechten Leistung bei unterschiedlichen Datendarstellungen führen kann. Um diesen Einschränkungen entgegenzuwirken, wird ein kombinierter Trainingsansatz vorgeschlagen, der alle drei Strategien nutzt, um die Stabilität und Anpassungsfähigkeit des Modells zu verbessern. Die Ergebnisse dieses Ansatzes werden für vier Sprachen (Englisch, Polnisch, Tschechisch und Deutsch) an verschiedenen Datensätzen präsentiert und diskutiert, wobei die Wirksamkeit der kombinierten Strategie belegt wird.