임상-롱포머 및 임상-빅버드: 긴 임상 시퀀스를 위한 트랜스포머

기반 모델인 트랜스포머(Transformer)는 BERT와 같은 모델을 통해 다양한 자연어 처리 작업에서 성능을 획기적으로 향상시켰다. 임상 지식이 풍부하게 반영된 모델인 ClinicalBERT 또한 임상 분야의 명명된 실체 인식(Named Entity Recognition) 및 자연어 추론(Natural Language Inference) 작업에서 최고 수준의 성능을 달성하였다. 그러나 이러한 트랜스포머 모델의 핵심적인 한계 중 하나는 전체 자기 주의(self-attention) 메커니즘으로 인해 발생하는 막대한 메모리 사용량이다. 이를 극복하기 위해, Longformer 및 BigBird와 같은 장문 시퀀스 트랜스포머 모델이 제안되었으며, 희소 주의(sparse attention) 메커니즘을 도입하여 메모리 사용량을 이차원적(quadratic)에서 선형(linear)으로 감소시켰다. 이러한 모델들은 입력 시퀀스 길이를 기존의 512에서 최대 4096까지 확장함으로써 장기적 의존성 모델링 능력을 향상시키고, 다양한 작업에서 최적의 성능을 달성하였다. 이러한 장문 시퀀스 트랜스포머 모델의 성공에 영감을 받아, 우리는 대규모 임상 문서 코퍼스를 기반으로 사전 훈련된 두 가지 도메인 특화 언어 모델인 Clinical-Longformer와 Clinical-BigBird를 제안한다. 본 연구에서는 명명된 실체 인식, 질의 응답, 문서 분류 등 총 10개의 기준 작업을 대상으로 두 모델의 성능을 평가하였다. 평가 결과, Clinical-Longformer와 Clinical-BigBird는 모든 하류 작업에서 ClinicalBERT 및 기타 단순 시퀀스 트랜스포머 모델을 일관되고 유의미하게 상회하는 성능을 보였다. 본 연구의 소스 코드는 [https://github.com/luoyuanlab/Clinical-Longformer]에서 공개되었으며, 사전 훈련된 모델은 [https://huggingface.co/yikuan8/Clinical-Longformer]에서 공개적으로 다운로드 가능하다.