HyperAIHyperAI
vor 11 Tagen

MeDAL: Dataset zur medizinischen Abkürzungs-Ambiguitätsauflösung für die Vortrainierung zur natürlichen Sprachverarbeitung

Zhi Wen, Xing Han Lu, Siva Reddy
MeDAL: Dataset zur medizinischen Abkürzungs-Ambiguitätsauflösung für die Vortrainierung zur natürlichen Sprachverarbeitung
Abstract

Ein wesentlicher Hemmnis für die Anwendung vieler aktueller NLP-Methoden in klinischen Umgebungen ist die Verfügbarkeit öffentlicher Datensätze. In dieser Arbeit präsentieren wir MeDAL, einen großen medizinischen Textdatensatz, der speziell für die Abkürzungs-Ambiguitätsauflösung kuratiert wurde und für die Vortrainierung im Bereich der natürlichen Sprachverarbeitung im medizinischen Kontext konzipiert ist. Wir haben mehrere Modelle gängiger Architekturen auf diesem Datensatz vortrainiert und empirisch gezeigt, dass eine solche Vortrainierung zu einer verbesserten Leistung und einer schnelleren Konvergenz bei der Feinabstimmung auf nachgeschaltete medizinische Aufgaben führt.

MeDAL: Dataset zur medizinischen Abkürzungs-Ambiguitätsauflösung für die Vortrainierung zur natürlichen Sprachverarbeitung | Neueste Forschungsarbeiten | HyperAI