HyperAIHyperAI
vor 7 Tagen

Verbesserte biomedizinische Wortembeddings im Zeitalter des Transformers

Jiho Noh, Ramakanth Kavuluru
Verbesserte biomedizinische Wortembeddings im Zeitalter des Transformers
Abstract

Biomedizinische Wort-Embeddings werden üblicherweise auf freien Textkorpora mittels neuronaler Methoden vortrainiert, die sowohl lokale als auch globale verteilungsbasierte Eigenschaften erfassen. Sie werden in nachgeschalteten Aufgaben mit verschiedenen neuronalen Architekturen eingesetzt, die darauf abgestimmt sind, aufgabenbezogene Ziele zu optimieren, wobei diese Embeddings gegebenenfalls weiter angepasst werden können. Seit 2018 ist jedoch ein deutlicher Wandel von diesen statischen Embeddings hin zu kontextuellen Embeddings zu beobachten, der durch Sprachmodelle (z. B. ELMo, Transformers wie BERT sowie ULMFiT) motiviert ist. Diese dynamischen Embeddings verfügen über den zusätzlichen Vorteil, Homonyme und Abkürzungen anhand ihres Kontexts unterscheiden zu können. Statische Embeddings bleiben dennoch in ressourcenschwachen Umgebungen (z. B. Smartgeräte, IoT-Elemente) sowie für die Untersuchung lexikalischer Semantik aus der Perspektive der computergestützten Linguistik relevant. In diesem Artikel lernen wir Wort- und Konzept-Embeddings gemeinsam, indem wir zunächst die Skip-gram-Methode anwenden und diese anschließend durch korrelative Informationen feinjustieren, die sich aus der gleichzeitigen Erscheinung von medizinischen Fachbegriffen (Medical Subject Heading, MeSH) in biomedizinischen Zitaten ergeben. Diese Feinjustierung wird mithilfe der BERT-Transformer-Architektur im Zwei-Satz-Eingabemodus mit einer Klassifizierungsaufgabe erreicht, die die gleichzeitige Auftretenshäufigkeit von MeSH-Paaren erfasst. Im Wesentlichen adaptieren wir eine Transformer-Architektur – typischerweise für die Erzeugung dynamischer Embeddings vorgesehen –, um statische Embeddings durch Konzeptkorrelationen zu verbessern. Wir evaluieren diese angepassten statischen Embeddings anhand mehrerer Datensätze für Wortverwandtschaft, die von früheren Arbeiten bereitgestellt wurden. Im Gegensatz zu vorherigen Ansätzen, die bestimmte Konzepte und Begriffe selektiv ausschlossen, glauben wir, bislang die umfassendste Evaluation statischer Embeddings vorzulegen, wobei sich überall klare Leistungsverbesserungen ergeben. Wir stellen unseren Code sowie die Embeddings zur öffentlichen Nutzung für nachgeschaltete Anwendungen und Forschungsarbeiten bereit: https://github.com/bionlproc/BERT-CRel-Embeddings

Verbesserte biomedizinische Wortembeddings im Zeitalter des Transformers | Neueste Forschungsarbeiten | HyperAI