
要約
臨床現場における現在の自然言語処理(NLP)手法の活用を妨げる主な課題の一つは、公開可能なデータセットの不足である。本研究では、略語の意味解消(abbreviation disambiguation)を目的として構築された大規模な医療テキストデータセット「MeDAL」を提示する。このデータセットは、医療分野における自然言語理解のための事前学習を目的として設計されている。我々は、このデータセット上で一般的なモデルアーキテクチャを複数用いて事前学習を行い、実証的に、下流の医療タスクにおける微調整(fine-tuning)において、性能の向上および収束速度の改善が得られることを示した。