vor 2 Monaten

BioBERT: ein vortrainiertes biomedizinisches Sprachrepräsentationsmodell für die Textmining in der Biomedizin

Jinhyuk Lee; Wonjin Yoon; Sungdong Kim; Donghyeon Kim; Sunkyu Kim; Chan Ho So; Jaewoo Kang

Abstract

Die biomedizinische Textmining wird zunehmend wichtiger, da die Anzahl der biomedizinischen Dokumente rasch wächst. Mit den Fortschritten im Bereich der natürlichen Sprachverarbeitung (NLP) hat sich das Extrahieren wertvoller Informationen aus biomedizinischer Literatur bei Forschern großer Beliebtheit erfreut, und maschinelles Tiefenlernen hat die Entwicklung effektiver Modelle für biomedizinisches Textmining gefördert. Allerdings führt die direkte Anwendung von Fortschritten im NLP auf biomedizinisches Textmining oft zu unzufriedenstellenden Ergebnissen aufgrund eines Verschiebungsphänomens in der Wortverteilung von allgemeinen Korpora zu biomedizinischen Korpora. In diesem Artikel untersuchen wir, wie das kürzlich eingeführte vortrainierte Sprachmodell BERT für biomedizinische Korpora angepasst werden kann. Wir stellen BioBERT (Bidirectional Encoder Representations from Transformers für biomedizinisches Textmining) vor, ein domänenspezifisches Sprachrepräsentationsmodell, das auf umfangreichen biomedizinischen Korpora vortrainiert wurde. Mit fast identischer Architektur über alle Aufgaben hinweg übertrifft BioBERT BERT und frühere state-of-the-art-Modelle in einer Vielzahl von biomedizinischen Textmining-Aufgaben, wenn es auf biomedizinischen Korpora vortrainiert wird. Während BERT Leistungen erzielt, die denen früherer state-of-the-art-Modelle entsprechen, übertreffen sie diese signifikant in den folgenden drei repräsentativen Aufgaben des biomedizinischen Textminings: Erkennung benannter Entitäten in der Biomedizintechnik (Verbesserung des F1-Scores um 0,62 %), Extraktion von Beziehungen in der Biomedizintechnik (Verbesserung des F1-Scores um 2,80 %) und beantworten von Fragen in der Biomedizintechnik (Verbesserung des MRR um 12,24 %). Unsere Analyseergebnisse zeigen, dass das Vortrainieren von BERT auf biomedizinischen Korpora ihm hilft, komplexe biomedizinische Texte besser zu verstehen. Wir stellen die vortrainierten Gewichte von BioBERT kostenlos unter https://github.com/naver/biobert-pretrained zur Verfügung und den Quellcode für das Feinjustieren von BioBERT unter https://github.com/dmis-lab/biobert.