SLK-NER: Zweite-Ordnung-Lexikonwissen für die chinesische NER ausnutzen

Obwohl zeichenbasierte Modelle, die lexikalische Kenntnisse einbeziehen, vielversprechende Ergebnisse für die Erkennung benannter Entitäten im Chinesischen (Chinese Named Entity Recognition, NER) erzielt haben, können bestimmte lexikalische Wörter aufgrund falscher Übereinstimmungen irreführende Informationen liefern. Bisherige Forschungsarbeiten haben zahlreiche Strategien zur Integration lexikalischer Kenntnisse vorgeschlagen. Diese verarbeiten jedoch in der Regel lediglich einfache, erste-Ordnung-Lexikonwissen, das unzureichende Wortinformationen liefert und weiterhin mit dem Problem von Übereinstimmungs-Grenzkonflikten konfrontiert ist; oder sie erforschen lexikalische Kenntnisse mittels Graphen, wobei höherwertige Informationen, die auch negative Wörter einbeziehen, die Erkennung stören können. Um diese oben genannten Einschränkungen zu überwinden, präsentieren wir eine neue Perspektive auf das zweite-Ordnung-Lexikonwissen (Second-Order Lexicon Knowledge, SLK) jedes Zeichens in einem Satz, um umfassendere lexikalische Wortinformationen – einschließlich semantischer und Grenzmerkmale – bereitzustellen. Auf dieser Grundlage schlagen wir ein SLK-basiertes Modell mit einer neuartigen Strategie zur Integration dieses Lexikonwissens vor. Das vorgeschlagene Modell kann mithilfe des globalen Kontexts differenziertere lexikalische Wortinformationen nutzen. Experimentelle Ergebnisse auf drei öffentlichen Datensätzen belegen die Wirksamkeit des SLK. Das vorgeschlagene Modell erreicht eine überlegene Leistung im Vergleich zu aktuellen state-of-the-art-Methoden.