17일 전
MASK: 임상 텍스트의 익명화를 촉진하기 위한 유연한 프레임워크
Nikola Milosevic, Gangamma Kalappa, Hesam Dadafarin, Mahmoud Azimaee, Goran Nenadic

초록
의료 기록 및 임상 요약은 치료법, 약물 및 공중보건 분야의 연구 발전에 기여할 수 있는 텍스트 형태의 방대한 정보를 포함하고 있다. 그러나 이러한 정보의 대부분은 환자, 그 가족 또는 치료에 관여한 의료진에 대한 개인 정보를 포함하고 있어 공유되지 않고 있다. 미국의 HIPAA, 캐나다의 PHIPPA, 유럽연합의 GDPR과 같은 규정은 이러한 정보의 보호, 처리 및 배포를 규제하고 있다. 이러한 정보가 익명화되어 개인 식별 정보가 제거되거나 가려진 경우, 연구 공동체에 공유될 수 있다. 본 논문에서는 이러한 익명화 작업을 수행하기 위해 설계된 소프트웨어 패키지 MASK를 제안한다. 이 소프트웨어는 최신 기술을 활용한 명명된 실체 인식(Named Entity Recognition, NER)을 수행하고, 인식된 실체를 마스킹하거나 가려낼 수 있다. 사용자는 현재 구현된 두 가지 CRF 기반 기법과 사전 훈련된 GLoVe 및 ELMo 임베딩을 활용한 BiLSTM 기반 신경망을 포함한 다양한 명명된 실체 인식 알고리즘을 선택할 수 있으며, 마스킹 알고리즘도 선택 가능하다(예: 날짜 이동, 이름/위치 교체, 실체 완전 가림).