Lernen eines einheitlichen Named Entity Taggers aus mehreren teilweise annotierten Korpora zur effizienten Adaptierung

Die Erkennung benannter Entitäten (Named Entity Recognition, NER) identifiziert typisierte Entitätsmention in Rohtexten. Obwohl die Aufgabe gut etabliert ist, existiert kein universell verwendeter Tagset: Oft werden Datensätze für den Einsatz in nachgeschalteten Anwendungen annotiert und decken daher nur eine kleine Auswahl an Entitätstypen ab, die für eine bestimmte Aufgabe relevant sind. Beispielsweise könnte eine Korpus im biomedizinischen Bereich Gene, ein anderes Chemikalien und ein drittes Krankheiten annotieren – obwohl die Texte in jedem Korpus jeweils Bezug auf alle drei Entitätstypen enthalten. In diesem Artikel schlagen wir ein tiefes strukturiertes Modell vor, das diese „teilweise annotierten“ Datensätze integriert, um gemeinsam alle in den Trainingskorpora vorkommenden Entitätstypen zu identifizieren. Durch die Nutzung mehrerer Datensätze kann das Modell robuste Eingaberepräsentationen lernen; durch die Konstruktion eines gemeinsamen strukturierten Modells werden potenzielle Konflikte vermieden, die sich aus der Kombination mehrerer Modellvorhersagen zur Testzeit ergeben könnten. Experimente zeigen, dass das vorgeschlagene Modell starke Multi-Task-Lern- baselines deutlich übertrifft, wenn es auf mehreren teilweise annotierten Datensätzen trainiert und auf Datensätzen getestet wird, die Tags aus mehreren der Trainingskorpora enthalten.