HyperAIHyperAI
vor 2 Monaten

Warum Aufmerksamkeit? Analyse der Mängel von BiLSTM und deren Lösungen im Fall der NER

Peng-Hsuan Li; Tsu-Jui Fu; Wei-Yun Ma
Warum Aufmerksamkeit? Analyse der Mängel von BiLSTM und deren Lösungen im Fall der NER
Abstract

BiLSTM wird häufig als Kernmodul für NER (Named Entity Recognition) in einer sequenzbasierten Klassifizierung eingesetzt. Die neuesten Ansätze verbessern NER durch die Verwendung von BiLSTM zusammen mit zusätzlichen Ressourcen wie Gazetteern, Sprachmodellierung oder Multi-Task-Überwachung. In diesem Artikel wird jedoch ein Schritt zurückgegangen und der Fokus liegt auf der Analyse von Problemen des BiLSTM selbst und darauf, wie genau Selbst-Aufmerksamkeit (Self-Attention) Verbesserungen bringen kann. Wir zeigen formell die Einschränkungen des (CRF-)BiLSTM bei der Modellierung von Kontextübergreifenden Mustern für jedes Wort – die XOR-Einschränkung. Anschließend demonstrieren wir, dass zwei Arten einfacher Kreuzstrukturen – Selbst-Aufmerksamkeit und Cross-BiLSTM – das Problem effektiv beheben können. Wir testen die praktischen Auswirkungen dieser Mängel an realen NER-Datensätzen, nämlich OntoNotes 5.0 und WNUT 2017, wobei sich klare und konsistente Verbesserungen gegenüber dem Baseline-Modell zeigen, bis zu 8,7 % bei einigen mehrteiligen Entitätsbezeichnungen. Wir führen eine detaillierte Analyse der Verbesserungen in verschiedenen Aspekten der NER durch, insbesondere bei der Identifikation von mehrteiligen Bezeichnungen. Diese Studie sollte eine solide Grundlage für zukünftige Verbesserungen im Bereich der sequenzbasierten Klassifizierung von NER legen. (Quellcode: https://github.com/jacobvsdanniel/cross-ner)