수술 컴퓨터 비전을 위한 자기 지도 학습 방법 분석

수술 컴퓨터 비전 분야는 최근 몇 년 동안 딥 뉴럴 네트워크 기반 방법의 인기 상승에 따라 상당한 발전을 이루어냈습니다. 그러나 이러한 모델을 훈련시키기 위한 표준 완전 지도 학습 접근법은 대량의 주석화된 데이터가 필요하여 비용이 매우 높아지며, 특히 임상 영역에서는 이 비용이 더욱 부담스럽습니다. 일반 컴퓨터 비전 커뮤니티에서 관심을 받기 시작한 자기 지도 학습(Self-Supervised Learning, SSL) 방법은 이러한 주석화 비용 문제를 해결할 수 있는 잠재적인 해결책을 제시합니다. 이 방법들은 주석화되지 않은 데이터만으로 유용한 표현을 학습할 수 있게 합니다.그러나 의학과 수술 등 더 복잡하고 중요한 영역에서 SSL 방법들의 효과성은 여전히 제한적이며 미개척 상태입니다. 본 연구에서는 이 중요한 요구 사항을 해결하기 위해 MoCo v2, SimCLR, DINO, SwAV 등 네 가지 최신 SSL 방법들을 수술 컴퓨터 비전의 맥락에서 조사하였습니다. 우리는 Cholec80 데이터셋에서 두 가지 기본적이고 인기 있는 수술 이해 과제인 단계 인식과 도구 존재 감지에 대한 이들 방법들의 성능을 철저히 분석하였습니다. 또한 반지도 학습 설정에서 훈련 데이터 양에 따른 행동 특성을 검토하였습니다.본 연구에서 설명하고 수행된 SSL 방법들의 수술 분야로의 올바른 전환은 일반적인 SSL 사용보다 최대 7.4%의 단계 인식 성능 개선과 20%의 도구 존재 감지 성능 개선을 가져왔습니다. 또한 최신 반지도 학습 단계 인식 접근법보다 최대 14%까지 우수한 성능을 보였습니다. 다양한 수술 데이터셋에서 얻은 추가 결과는 강력한 일반화 능력을 나타내고 있습니다. 코드는 https://github.com/CAMMA-public/SelfSupSurg 에서 제공됩니다.