정신질환 포럼 데이터를 활용한 정신분열증 증상 및 일상생활에 미치는 영향에 대한 질문-답변 모델

최근 몇 년간 기계 학습 기법을 활용한 의료 데이터 탐사에 대한 관심이 크게 증가하고 있다. 일반적으로 직면하는 문제는 연구 질문에 관련된 내용을 담고 있으며 노이즈가 없는 텍스트 문서 집합을 확보하고, 특정 의학 분야에 적합한 질문-응답(Question Answering, QA) 모델을 개발하는 것이다. 본 논문의 목적은 특정 질병 분야에서 증상과 일상생활에 미치는 영향을 분석하기 위한 QA 모델 구축을 위한 새로운 방법론을 제시하는 것이다. 연구에서는 정신질환, 특히 정신분열증을 앓고 있는 환자들을 위한 전용 포럼인 '정신건강' 포럼을 활용하였다. 활발히 참여하는 사용자들의 관련 게시물을 추출함으로써 편향이 적고 개인정보 문제 없이 활용 가능한 콘텐츠를 확보하는 새로운 방법을 제시하였다. 또한, 이러한 데이터셋을 QA 데이터셋으로 변환하기 위한 전처리 방법을 제시하였다. 본 연구에서는 양방향 인코더 표현(Bidirectional Encoder Representations from Transformers, BERT), DistilBERT, RoBERTa, BioBERT 등의 모델을 미세조정(fine-tuning)하고, F1 스코어, 정확 일치(Exact Match), 정밀도(Precision), 재현율(Recall)을 기준으로 평가하였다. 정밀한 실증 실험을 통해 제안된 방법론이 QA 모델 구현을 위한 정확한 데이터셋을 확보하는 데 효과적임을 입증하였다. 특히 BioBERT QA 모델을 미세조정한 결과, F1 스코어 0.885를 달성하여 정신질환 분야에서 최신 기술 대비 상당한 성능 향상을 보이며 기존 최고 수준의 모델을 능가함을 확인하였다.