9日前
臨床セクション識別向け新規パブリックコーパス:MedSecId
{Cornelia Caragea, Barbara Di Eugenio, Adam Webb, Sean S. Huang, Kunal Patel, Paul Landes}

要約
文書内のセクションを区切り、ラベル付けするプロセスは「セクション識別」と呼ばれる。このようなセクションは、情報の検索や特定トピックの文脈理解を読者にとって支援する。本研究の目的は、臨床医学分野の文書におけるセクションのセグメンテーションを実現することである。本研究の主な貢献は、MIMIC-IIIデータセットから抽出された2,002件の完全にアノテーションされた医療ノートを公開する「MedSecId」の提供である。併せて、複数のベースライン手法、ソースコード、事前学習済みモデル、および主成分分析(PCA)を用いたデータ分析結果を提供しており、これらはセクション間における医学的概念の関連性を明らかにしている。