HyperAIHyperAI
vor 17 Tagen

BioMegatron: Ein größerer Sprachmodell für den biomedizinischen Bereich

Hoo-Chang Shin, Yang Zhang, Evelina Bakhturina, Raul Puri, Mostofa Patwary, Mohammad Shoeybi, Raghav Mani
BioMegatron: Ein größerer Sprachmodell für den biomedizinischen Bereich
Abstract

Es hat einen starken Zuwachs an domain-spezifischen Sprachmodellen für den biomedizinischen Bereich gegeben, wobei sich gezeigt hat, dass Sprachmodelle, die auf biomedizinischem Text vortrainiert wurden, auf biomedizinischen Benchmark-Aufgaben besser abschneiden als solche, die auf allgemeinen Textkorpora wie Wikipedia oder Büchern trainiert wurden. Dennoch untersuchen die meisten Arbeiten die Faktoren, die die Leistung in spezifischen Domänenanwendungen beeinflussen, nur oberflächlich. Zudem fehlt eine umfassende Analyse des Einflusses der Modellgröße auf domain-spezifische Modelle weitgehend. In dieser Arbeit untersuchen und bewerten wir empirisch mehrere Faktoren, die die Leistung biomedizinischer Sprachanwendungen beeinflussen können, darunter das Subwort-Vokabular, die Modellgröße, das Vortrainingskorpus und der Domänen-Transfer. Wir zeigen konsistente Verbesserungen auf Benchmarks mit unserem größeren BioMegatron-Modell, das auf einem umfangreicheren Domänenkorpus trainiert wurde, was unser Verständnis für die Anwendung von Domänen-Sprachmodellen erweitert. Unsere Ergebnisse demonstrieren deutliche Fortschritte gegenüber dem vorherigen Stand der Technik (SOTA) auf etablierten biomedizinischen NLP-Benchmarks für Named Entity Recognition, Relationsextraktion und Fragebeantwortung. Die Modell-Checkpoints und der Quellcode sind unter [https://ngc.nvidia.com] und [https://github.com/NVIDIA/NeMo] verfügbar.

BioMegatron: Ein größerer Sprachmodell für den biomedizinischen Bereich | Neueste Forschungsarbeiten | HyperAI