Chemische Detektion und Indizierung in PubMed-Volltextartikeln mittels Tiefenlernen und regelbasierten Methoden
Die Identifizierung von Chemikalien in der biomedizinischen wissenschaftlichen Literatur ist eine entscheidende Aufgabe für die Forschung im Bereich der Arzneimittelentwicklung. Der BioCreative NLM-Chem-Wettbewerb förderte die Entwicklung automatisierter Systeme, die in Volltextartikeln Chemikalien erkennen und bestimmen können, welche chemischen Konzepte für die Indizierung relevant sind. In dieser Arbeit beschreiben wir die Teilnahme des BIT.UA-Teams der Universität Aveiro, das einen dreistufigen automatisierten Pipeline-Ansatz vorschlägt, der jeweils (i) die Erkennung chemischer Erwähnungen, (ii) die Entitätsskalierung und (iii) die Indizierung adressiert. Als Lösung für die chemische Identifizierung setzten wir ein tiefes Lernverfahren basierend auf einer biomedizinischen BERT-Variante ein. Für die Normalisierung verwendeten wir sowohl einen regelbasierten Ansatz als auch eine hybride Variante, die eine dichte Recherche-Mechanismus nutzt. Ähnlich verfuhren wir auch bei der Indizierung: Hier verfolgten wir zwei unterschiedliche Ansätze – einen regelbasierten und einen auf TF-IDF basierenden. Unsere besten offiziellen Ergebnisse liegen in allen drei Teilaufgaben konstant über dem offiziellen Median und dem Benchmark, mit F1-Scores von jeweils 0,8454, 0,8136 und 0,4664.