HyperAIHyperAI
vor 2 Monaten

BioSentVec: Erstellung von Satzrepräsentationen für biomedizinische Texte

Qingyu Chen; Yifan Peng; Zhiyong Lu
BioSentVec: Erstellung von Satzrepräsentationen für biomedizinische Texte
Abstract

Satzrepräsentationen sind zu einem wesentlichen Bestandteil der heutigen Systeme zur natürlichen Sprachverarbeitung (NLP) geworden, insbesondere in Verbindung mit fortgeschrittenen Deep-Learning-Methoden. Obwohl vorab trainierte Satzencoder im allgemeinen Bereich verfügbar sind, existieren bislang keine für biomedizinische Texte. In dieser Arbeit stellen wir BioSentVec vor: die erste öffentlich verfügbare Satzmengendarstellung, die mit über 30 Millionen Dokumenten sowohl aus wissenschaftlichen Artikeln in PubMed als auch aus klinischen Notizen in der MIMIC-III Klinischen Datenbank trainiert wurde. Wir evaluieren die BioSentVec-Satzrepräsentationen in zwei Aufgaben zur Ähnlichkeitsbestimmung von Satzpaaren in verschiedenen Textgenres. Unsere Benchmark-Ergebnisse zeigen, dass die BioSentVec-Satzrepräsentationen die Satzsemantik besser erfassen können als andere wettbewerbsfähige Alternativen und den Stand der Technik in beiden Aufgaben erreichen. Wir erwarten, dass BioSentVec die Forschung und Entwicklung im Bereich des biomedizinischen Textminings fördern wird und die vorhandenen Ressourcen bei biomedizinischen Wortrepräsentationen ergänzt. BioSentVec ist öffentlich zugänglich unter https://github.com/ncbi-nlp/BioSentVec.

BioSentVec: Erstellung von Satzrepräsentationen für biomedizinische Texte | Neueste Forschungsarbeiten | HyperAI