민맥스 유사도: 수술 도구 세그멘테이션을 위한 대비적 반감독 딥러닝 네트워크

신경망을 이용한 의료 영상 분할에서 흔히 발생하는 문제는 훈련을 위해 픽셀 단위의 레이블이 부족하다는 점이다. 이 문제를 해결하기 위해 우리는 대비 학습을 기반으로 한 반감독 분할 네트워크를 제안한다. 기존 최첨단 기법과 달리, 우리는 분류기와 프로젝터를 활용하여 모든 음성 쌍(all-negative pairs)과 양성-음성 특징 쌍(positive and negative feature pairs)을 구성함으로써 이중 시점(dual-view) 훈련 방식을 적용한 최소-최대 유사도(Min-Max Similarity, MMS)라는 대비 학습 기법을 도입하였다. 이는 학습을 MMS 문제로 수식화하는 방식이다. 모든 음성 쌍은 서로 다른 시점에서의 네트워크 학습을 감독하고 일반적인 특징을 포착하는 데 사용되며, 양성-음성 쌍 간의 픽셀 단위 대비 손실(pixel-wise contrastive loss)을 통해 미라벨링된 예측의 일관성을 측정한다. 제안된 방법의 정량적·정성적 평가를 위해, 우리는 네 개의 공개된 내시경 수술 도구 분할 데이터셋과 수동으로 레이블링한 한 개의 고이어식 임플란트 수술 데이터셋에서 실험을 수행하였다. 결과적으로 제안된 방법은 기존의 최첨단 반감독 및 전면 감독 분할 알고리즘을 일관되게 상회함을 확인하였다. 또한, 제안된 반감독 분할 알고리즘은 미지의 수술 도구를 성공적으로 인식하고 신뢰할 수 있는 예측을 제공할 수 있었다. 더불어 MMS 접근법은 약 40 프레임/초(fps)의 추론 속도를 달성하여 실시간 영상 분할 처리에 적합함을 입증하였다.