9일 전
임상 섹션 식별을 위한 새로운 공개 코퍼스: MedSecId
{Cornelia Caragea, Barbara Di Eugenio, Adam Webb, Sean S. Huang, Kunal Patel, Paul Landes}

초록
문서의 특정 부분을 구분하고 레이블을 붙이는 과정은 섹션 식별(Section Identification)이라고 알려져 있다. 이러한 섹션은 정보를 검색하거나 특정 주제를 맥락 속에서 이해하는 데 독자에게 유용하다. 본 연구의 목적은 임상 의료 분야 문서의 섹션을 분할하는 것이다. 본 연구의 주요 기여는 MIMIC-III 데이터셋에서 수집한 총 2,002건의 완전히 주석이 달린 의료 기록을 공개한 MedSecId이다. 본 연구에서는 여러 기준 모델과 소스 코드, 사전 훈련된 모델, 그리고 주성분 분석(PCA)을 활용하여 섹션 간 의료 개념 간의 관계를 분석한 데이터 분석 결과를 포함하고 있다.