Biomedizinische NER unter Verwendung eines neuen Schemas und Distant Supervision

Die Erkennung biomedizinischer Named Entities (BMNER) ist eine der wichtigsten Aufgaben im Bereich der biomedizinischen Textmining-Forschung. Bislang konzentrierte sich der Großteil der Arbeiten auf die Identifikation kontinuierlicher, nicht überlappender Entitäten, obwohl diskontinuierliche und überlappende Entitäten in realen biomedizinischen Datensätzen signifikante Anteile aufweisen. In diesem Artikel stellen wir ein neuartiges Annotationsschema vor, das komplexe Entitäten besser erfassen kann, und untersuchen den Einfluss von Distant Supervision auf unser tiefes Lern-Modell zur Sequenzmarkierung. Für die BMNER-Aufgabe übertrifft unser Annotationsschema andere BIO-basierte Ansätze bei gleicher Modellarchitektur. Zudem erzielen wir höhere F1-Scores als aktuell beste Modelle auf mehreren Korpora, ohne Embeddings zu fine-tunen, was die Wirksamkeit der neuronalen Merkmalsextraktion mittels unseres Modells unterstreicht.