HyperAIHyperAI

Command Palette

Search for a command to run...

BioSentVec: Erstellung von Satzrepräsentationen für biomedizinische Texte

Qingyu Chen† Yifan Peng† Zhiyong Lu*

Zusammenfassung

Satzrepräsentationen sind zu einem wesentlichen Bestandteil der heutigen Systeme zur natürlichen Sprachverarbeitung (NLP) geworden, insbesondere in Verbindung mit fortgeschrittenen Deep-Learning-Methoden. Obwohl vorab trainierte Satzencoder im allgemeinen Bereich verfügbar sind, existieren bislang keine für biomedizinische Texte. In dieser Arbeit stellen wir BioSentVec vor: die erste öffentlich verfügbare Satzmengendarstellung, die mit über 30 Millionen Dokumenten sowohl aus wissenschaftlichen Artikeln in PubMed als auch aus klinischen Notizen in der MIMIC-III Klinischen Datenbank trainiert wurde. Wir evaluieren die BioSentVec-Satzrepräsentationen in zwei Aufgaben zur Ähnlichkeitsbestimmung von Satzpaaren in verschiedenen Textgenres. Unsere Benchmark-Ergebnisse zeigen, dass die BioSentVec-Satzrepräsentationen die Satzsemantik besser erfassen können als andere wettbewerbsfähige Alternativen und den Stand der Technik in beiden Aufgaben erreichen. Wir erwarten, dass BioSentVec die Forschung und Entwicklung im Bereich des biomedizinischen Textminings fördern wird und die vorhandenen Ressourcen bei biomedizinischen Wortrepräsentationen ergänzt. BioSentVec ist öffentlich zugänglich unter https://github.com/ncbi-nlp/BioSentVec.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
BioSentVec: Erstellung von Satzrepräsentationen für biomedizinische Texte | Paper | HyperAI