17일 전

다중모달 접근법을 통한 BiomedCLIP-PubMedBERT를 활용한 내시경 VCE 이미지 분류

Nagarajan Ganapathy, Podakanti Satyajith Chary, Teja Venkata Ramana Kumar Pithani, Pavan Kavati, Arun Kumar S
다중모달 접근법을 통한 BiomedCLIP-PubMedBERT를 활용한 내시경 VCE 이미지 분류
초록

이 논문은 소장 내시경 영상(VCE) 프레임에서의 이상을 분류하기 위해 다중모달 모델인 BiomedCLIP PubMedBERT를 고도로 미세조정하는 새로운 접근법을 제안한다. 이는 위장관 의료 분야에서 진단 효율성을 향상시키는 것을 목표로 한다. 본 연구에서는 PubMedBERT 언어 모델을 비전 트랜스포머(Vision Transformer, ViT)와 결합하여 내시경 영상을 처리함으로써, 10개의 특정 클래스—혈관확장증, 출혈, 침식, 적색화, 이물질, 림프관확장증, 폴립, 궤양, 기생충, 정상—으로 영상을 분류한다. 제안하는 워크플로우는 이미지 전처리를 포함하며, BiomedCLIP 모델을 미세조정하여 시각적 및 텍스트 입력에 대해 고품질의 임베딩을 생성하고, 유사도 점수를 기반으로 두 입력 간의 정렬을 수행함으로써 분류를 실현한다. 분류 정확도, 재현율, F1 점수 등 성능 지표는 모델이 내시경 프레임 내 이상을 정확하게 식별할 수 있는 뛰어난 능력을 보여주며, 임상 진단 분야에서의 실용적 활용 가능성을 시사한다.