Ein auf Aufmerksamkeit basierender BiLSTM-CRF-Ansatz für die dokumentenweite Erkennung chemischer benannter Entitäten
Motivation: In der biomedizinischen Forschung stellt die Chemikalie eine wichtige Kategorie von Entitäten dar, und die Erkennung chemischer Entitäten (Chemical Named Entity Recognition, NER) ist eine zentrale Aufgabe im Bereich der biomedizinischen Informationsextraktion. Allerdings basieren die meisten gängigen Ansätze zur chemischen NER auf traditionellen maschinellen Lernverfahren, deren Leistungsfähigkeit stark von der Feature-Engineering-Phase abhängt. Darüber hinaus handelt es sich bei diesen Methoden um satzweite Ansätze, die unter dem Problem der Tagging-Inkonsistenz leiden. Ergebnisse: In diesem Artikel stellen wir einen neuronalen Netzwerkansatz vor, nämlich einen auf Aufmerksamkeit basierenden bidirektionalen Long Short-Term Memory mit einer bedingten zufälligen Feld-Schicht (Att-BiLSTM-CRF), für die Dokumentebene zur chemischen NER. Der Ansatz nutzt globale Dokumentinformationen, die durch die Aufmerksamkeitsmechanik gewonnen werden, um die Konsistenz der Tagging über mehrere Vorkommen desselben Tokens innerhalb eines Dokuments zu gewährleisten. Im Vergleich zu anderen state-of-the-art-Methoden erreicht der Ansatz auf dem BioCreative IV-Datensatz zur Erkennung chemischer Verbindungen und Arzneimittelnamen (CHEMDNER) sowie auf dem BioCreative V-Datensatz zur Erkennung chemisch-klinischer Beziehungen (CDR) eine bessere Leistung mit geringem Aufwand an Feature-Engineering (F-Scores von jeweils 91,14 % und 92,57 %). Verfügbarkeit und Implementierung: Daten und Code sind unter https://github.com/lingluodlut/Att-ChemdNER verfügbar. Kontakt: [email protected] oder [email protected]. Ergänzende Informationen: Zusätzliche Daten sind online bei Bioinformatics verfügbar.