Ein robustes und domänenangepasstes Verfahren für die Named-Entity-Erkennung bei geringen Ressourcen

Kürzlich hat die Erstellung zuverlässiger Systeme zur Namensentitätserkennung (NER) unter Verwendung von begrenzt annotierten Daten viel Aufmerksamkeit auf sich gezogen. Fast alle existierenden Arbeiten hängen stark von domänenbezogenen Ressourcen ab, wie externen Lexika und Wissensbasen. Allerdings sind solche domänenbezogenen Ressourcen oft nicht verfügbar, und es ist schwierig und kostspielig, diese Ressourcen zu erstellen, was sich zu einem wesentlichen Hindernis für eine breitere Anwendung entwickelt hat. Um dieses Problem anzugehen, schlagen wir in dieser Arbeit einen neuen robusten und domänenanpassbaren Ansatz RDANER für NER mit geringen Ressourcen vor, der nur preiswerte und leicht erreichbare Ressourcen verwendet. Ausführliche Experimente an drei Benchmark-Datensätzen zeigen, dass unser Ansatz die beste Leistung erzielt, wenn nur preiswerte und leicht erreichbare Ressourcen verwendet werden, und wettbewerbsfähige Ergebnisse gegen Stand-der-Technik-Methoden liefert, die schwer erreichbare domänenbezogene Ressourcen verwenden. Der gesamte Code und die Korpora können auf https://github.com/houking-can/RDANER gefunden werden.