HyperAIHyperAI

Command Palette

Search for a command to run...

BioBERT: ein vortrainiertes biomedizinisches Sprachrepräsentationsmodell für die Textmining in der Biomedizin

Jinhyuk Lee Wonjin Yoon Sungdong Kim Donghyeon Kim Sunkyu Kim Chan Ho So Jaewoo Kang

Zusammenfassung

Die biomedizinische Textmining wird zunehmend wichtiger, da die Anzahl der biomedizinischen Dokumente rasch wächst. Mit den Fortschritten im Bereich der natürlichen Sprachverarbeitung (NLP) hat sich das Extrahieren wertvoller Informationen aus biomedizinischer Literatur bei Forschern großer Beliebtheit erfreut, und maschinelles Tiefenlernen hat die Entwicklung effektiver Modelle für biomedizinisches Textmining gefördert. Allerdings führt die direkte Anwendung von Fortschritten im NLP auf biomedizinisches Textmining oft zu unzufriedenstellenden Ergebnissen aufgrund eines Verschiebungsphänomens in der Wortverteilung von allgemeinen Korpora zu biomedizinischen Korpora. In diesem Artikel untersuchen wir, wie das kürzlich eingeführte vortrainierte Sprachmodell BERT für biomedizinische Korpora angepasst werden kann. Wir stellen BioBERT (Bidirectional Encoder Representations from Transformers für biomedizinisches Textmining) vor, ein domänenspezifisches Sprachrepräsentationsmodell, das auf umfangreichen biomedizinischen Korpora vortrainiert wurde. Mit fast identischer Architektur über alle Aufgaben hinweg übertrifft BioBERT BERT und frühere state-of-the-art-Modelle in einer Vielzahl von biomedizinischen Textmining-Aufgaben, wenn es auf biomedizinischen Korpora vortrainiert wird. Während BERT Leistungen erzielt, die denen früherer state-of-the-art-Modelle entsprechen, übertreffen sie diese signifikant in den folgenden drei repräsentativen Aufgaben des biomedizinischen Textminings: Erkennung benannter Entitäten in der Biomedizintechnik (Verbesserung des F1-Scores um 0,62 %), Extraktion von Beziehungen in der Biomedizintechnik (Verbesserung des F1-Scores um 2,80 %) und beantworten von Fragen in der Biomedizintechnik (Verbesserung des MRR um 12,24 %). Unsere Analyseergebnisse zeigen, dass das Vortrainieren von BERT auf biomedizinischen Korpora ihm hilft, komplexe biomedizinische Texte besser zu verstehen. Wir stellen die vortrainierten Gewichte von BioBERT kostenlos unter https://github.com/naver/biobert-pretrained zur Verfügung und den Quellcode für das Feinjustieren von BioBERT unter https://github.com/dmis-lab/biobert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp