Command Palette
Search for a command to run...
정신과 진단의 자동화된 ICD 분류: 고전적 NLP에서 대규모 언어 모델까지
정신과 진단의 자동화된 ICD 분류: 고전적 NLP에서 대규모 언어 모델까지
Fernando Ortega Raúl Lara-Cabrera Jorge Dueñas-Lerín Alejandro de la Torre-Luque Mercé Salvador Robert Enrique Baca-García
초록
정신 건강은 전 세계적 우선순위로 부상했으며, 이는 임상 진단 코딩에서 막대한 행정적 부담을 초래하고 있습니다. 본 연구는 자연어 처리(NLP) 및 머신러닝(ML) 기법을 활용하여 자유 텍스트 설명을 질병의 국제 분류(ICD)에 매핑함으로써 정신과 진단 분석의 자동화를 제안합니다. 145,513건의 스페인어 정신과 설명으로 구성된 전문 데이터셋을 활용하여, 고전적인 빈도 기반 모델(Bag-of-Words, TF-IDF)부터 e5_large, BioLORD, Llama-3-8B와 같은 최첨단 대규모 언어 모델(LLM)에 이르기까지 다양한 텍스트 표현 패러다임을 평가했습니다. 결과에 따르면, 트랜스포머 기반 임베딩은 암묵적 의미 단서와 미묘한 의학 용어를 포착함으로써 전통적인 방법론을 일관되게 상회하는 성능을 보였습니다. 엔드투엔드 파인튜닝을 통해 e5_large 모델은 F1micro 점수 0.866으로 가장 높은 성능을 달성했습니다. 본 연구는 LLM을 특정 임상 명명법에 적응시키는 것이 ``긴 꼬리'' 라벨 분포의 도전 과제와 정신과 담론의 본질적 모호성을 극복하는 데 필수적임을 보여줍니다.