전자 건강 기록을 활용한 개인화된 치료 효과 추정을 위한 딥 표현 학습
임상 관찰 데이터를 활용하여 개별 치료 효과(individualized treatment effect, ITE)를 추정하는 것은 임상 데이터에 반드시 존재하는 혼동(Confounding) 요인으로 인해 도전적인 과제이다. 기존의 대부분의 ITE 추정 모델은 치료 효과에 대한 편향 없는 추정량을 생성함으로써 이 문제를 다루고 있다. 비록 이러한 접근법은 유의미한 가치를 지니지만, 균형 잡힌 표현을 학습하는 것과 ITE 추정을 위한 효과적이고 구분력 있는 모델을 학습하는 목표 사이에는 때때로 모순이 발생할 수 있다. 본 연구에서는 다중 작업(multi-task) 딥러닝과 K-최근접 이웃(K-nearest neighbors, KNN)을 융합한 새로운 하이브리드 모델을 제안한다. 구체적으로, 제안된 모델은 전자 건강 기록(Electronic Health Records, EHR)에서 결과 예측과 치료 유형 분류를 동시에 수행함으로써 결과 예측 가능하고 치료 특성에 민감한 은닉 표현(latent representations)을 추출하는 다중 작업 딥러닝 기반의 접근법을 먼저 적용한다. 이후, 학습된 은닉 표현을 기반으로 KNN 기반의 반사적 결과(counterfactual outcomes)를 추정한다. 제안 모델의 성능은 널리 사용되는 반시뮬레이션 데이터셋인 IHDP와 736명의 심부전(HF) 환자를 포함하는 실제 임상 데이터셋을 대상으로 검증하였다. IHDP 데이터셋에서 모델은 동질성 효과 추정의 정밀도(Precision in the estimation of heterogeneous effect, PEHE) 기준으로 1.7, 평균 치료 효과(average treatment effect, ATE) 기준으로 0.23의 우수한 성능을 보였으며, HF 데이터셋에서는 정확도(accuracy) 0.703, F1 점수 0.796의 성능을 기록하였다. 실험 결과는 제안 모델이 최신 기술 수준의 모델들과 경쟁 가능한 성능을 달성함을 입증한다. 또한, 결과는 기존 의료 분야의 지식과 일치하는 몇 가지 중요한 발견을 제시하며, 향후 임상 연구를 통해 검증 가능한 유의미한 가설을 도출하였다.