HyperAIHyperAI
vor 9 Tagen

Chemische Identifizierung und Indizierung in PubMed-Volltextartikeln mittels Deep Learning und Heuristiken

{Sérgio Matos, João R. Almeida, João F. Silva, Rui Antunes, Tiago Almeida}
Abstract

Die Identifizierung von Chemikalien in wissenschaftlichen Artikeln hat in der biomedizinischen Forschungsgemeinschaft großes Interesse geweckt, da sie für die Forschung im Bereich der Arzneimittelentwicklung von entscheidender Bedeutung ist. Die meisten bisherigen Arbeiten konzentrierten sich auf PubMed-Abstracts, wobei jedoch eine weitere Untersuchung mithilfe vollständiger Textdokumente erforderlich ist, da diese zusätzliche wertvolle Informationen enthalten, die erschlossen werden müssen. Die manuelle Expertenarbeit der Indizierung von Medical Subject Headings (MeSH)-Begriffen in diese Artikel unterstützt Forscher dabei, die relevantesten Publikationen für ihre laufenden Arbeiten zu finden. Der BioCreative VII NLM-Chem-Track förderte die Entwicklung von Systemen zur Chemikalienidentifizierung und -indizierung in PubMed-Volltextartikeln. Die Chemikalienidentifizierung umfasste die Erkennung chemischer Nennungen und deren Verknüpfung mit eindeutigen MeSH-Identifikatoren. In diesem Manuskript beschreiben wir unser Teilnahme-System sowie die Verbesserungen, die wir nach dem Wettbewerb vorgenommen haben. Wir stellen eine dreistufige Pipeline vor, die jeweils die Erkennung chemischer Nennungen, die Entitätsnormalisierung und die Indizierung separat durchführt. Für die Chemikalienidentifizierung setzten wir eine Deep-Learning-Lösung ein, die kontextualisierte Embeddings aus PubMedBERT nutzt, gefolgt von einem mehrschichtigen Perzeptron und einer Conditional Random Field (CRF)-Tagging-Schicht. Für die Normalisierung verwenden wir einen dictionarybasierten Siebansatz, gefolgt von einer Deep-Learning-basierten Ähnlichkeitssuche. Schließlich haben wir Regeln entwickelt, um die relevantesten MeSH-Codes für jeden Artikel zu identifizieren. Während des Wettbewerbs erzielte unser System die besten offiziellen Ergebnisse bei den Aufgaben Normalisierung und Indizierung, obwohl die Leistung bei der Erkennung chemischer Nennungen geringer war. In einer nachträglichen Phase verbesserten wir unsere Named-Entity-Recognition-Modell durch zusätzliche Techniken und steigerten dadurch unsere Ergebnisse erheblich. Das endgültige System erreichte Werte von 0,8731, 0,8275 und 0,4849 bei den Aufgaben Chemikalienidentifizierung, Normalisierung und Indizierung, jeweils. Der Quellcode zur Reproduktion unserer Experimente und zur Ausführung der Pipeline ist öffentlich verfügbar.Datenbank-URL: https://github.com/bioinformatics-ua/biocreativeVII_track2