Command Palette
Search for a command to run...
Geon Choi Hangyul Yoon Hyunju Shin Hyunki Park Sang Hoon Seo Eunho Yang Edward Choi

초록
현재 흉부 X선 촬영(CXR)에 대한 병변 세그멘테이션 모델의 적용 가능성이, 타깃 레이블 수의 제한과 전문가 수준의 긴 세부 정보를 포함한 텍스트 입력에 대한 의존성으로 인해 제한되어 왔다. 이러한 한계를 극복하기 위해, 간단하고 사용자 친화적인 지시문을 기반으로 다양한 병변 유형을 세그멘테이션할 수 있도록 설계된 새로운 패러다임인 지시어 기반 병변 세그멘테이션(Instruction-guided Lesion Segmentation, ILS)을 제안한다. 이 패러다임 하에서, 흉부 X선 영상과 해당 보고서로부터 자동으로 애너테이션을 생성하는 완전 자동화된 다중 모달 파이프라인을 활용하여, CXR 병변 세그멘테이션을 위한 최초의 대규모 지시어-응답 데이터셋인 MIMIC-ILS를 구축하였다. MIMIC-ILS는 192,000장의 이미지와 91,000개의 고유한 세그멘테이션 마스크에서 유도된 총 110만 개의 지시어-응답 쌍을 포함하며, 7가지 주요 병변 유형을 포괄한다. 그 실용성을 실험적으로 입증하기 위해, MIMIC-ILS를 기반으로 미세 조정된 시각-언어 모델인 ROSALIA를 제안한다. ROSALIA는 사용자 지시에 따라 다양한 병변을 세그멘테이션하고, 텍스트 설명을 제공할 수 있다. 제안된 새로운 과제에서 모델은 높은 세그멘테이션 정확도와 텍스트 정확도를 달성하였으며, 본 연구의 파이프라인의 효과성과 MIMIC-ILS가 픽셀 수준의 CXR 병변 지칭을 위한 기초 자원으로서의 가치를 입증한다.