LLM 기반 섹션 식별자가 오픈 소스에서는 뛰어나지만 실제 응용에서는 실수를 범한다.

전자 건강 기록(Electronic Health Records, EHR)은 의료 전문가들에게 큰 도움이 되지만, 매일 복잡하고 길어지고 있다. 이러한 긴 EHR을 정리하는 것은 힘들며, 의사와 환자 간의 상호작용을 방해하는 번거로운 부분이 되고 있다. 이 문제를 해결하기 위해 요약 또는 섹션 분류를 통해 도움을 주는 여러 접근법이 제안되었으나, 과거에 실제로 효과적이었던 방법은 많지 않았다. 자동화된 방법의 발전으로 인해 기계 학습(Machine Learning, ML)은 EHR에서 관련 섹션을 식별하는 작업을 해결할 가능성을 보여주었다. 그러나 대부분의 ML 방법은 라벨링된 데이터에 의존하며, 이는 의료 분야에서 얻기 어렵다. 반면에 대형 언어 모델(Large Language Models, LLMs)은 라벨링된 데이터 없이도 자연어 처리(Natural Language Processing, NLP)에서 뛰어난 성과를 거두었으며, 특히 제로샷(zero-shot) 방식으로 우수한 성능을 보였다. 이를 바탕으로 우리는 LLMs를 사용하여 관련 섹션 제목을 식별하는 방법을 제안한다. 실험 결과 GPT-4는 제로샷 및 소수 샷(few-shot) 설정에서 모두 효과적으로 작업을 수행하며, 최신 기술(state-of-the-art)보다 훨씬 더 우수한 세분화(segmentation) 능력을 보였다. 또한, 우리는 더욱 어려운 실제 데이터셋(real world dataset)을 주석(annotation)하여 GPT-4가 잘 수행하지 못함을 확인하였는데, 이는 추가 연구와 더 어려운 벤치마크(benchmarks)가 필요함을 시사한다.