다중 작업 재귀적 컨볼루션 네트워크와 상관 손실을 이용한 수술 영상 분석

수술 도구 검출 및 수술 단계 인식은 현대 수술실에서 다양한 응용 분야에서 매우 중요한 구성 요소이지만, 수술 동영상 분석에서 두 가지 근본적이면서도 어려운 과제입니다. 이 두 가지 분석 과제는 임상적으로 수술 과정이 잘 정의되어 있어 서로 밀접한 관련성이 있지만, 대부분의 기존 방법들은 이러한 관련성을 충분히 활용하지 않고 별도로 해결해 왔습니다. 본 논문에서는 두 과제의 관련성을 활용하여 성능을 동시에 향상시키기 위해 상관관계 손실(correlation loss)을 갖춘 다중 작업 순환 컨볼루션 네트워크(Multi-Task Recurrent Convolutional Network with Correlation Loss, MTRCNet-CL)를 개발하는 새로운 방법을 제시합니다.특히, 제안된 MTRCNet-CL 모델은 일반적인 시각적 특징을 추출하기 위한 초기 특징 인코더를 공유하면서 각각의 특정 작업을 목표로 하는 고위층을 유지하는 두 개의 브랜치로 구성된 엔드투엔드(end-to-end) 아키텍처를 가지고 있습니다. 시간 정보가 단계 인식에 중요하기 때문에, 장단기 메모리(Long Short-Term Memory, LSTM)가 사용되어 단계 인식 브랜치에서 순차적 의존성을 모델링합니다. 더욱 중요한 것은, 각 비디오 프레임의 도구 존재와 단계 식별 사이의 관련성을 모델링하기 위해 예측값 간의 차이를 최소화하는 새로운且有效的相关性损失被设计出来。 为了确保句子结构符合韩语习惯,我将对最后一句进行调整:더욱 중요한 것은, 각 비디오 프레임의 도구 존재와 단계 식별 사이의 관련성을 모델링하기 위해 예측값 간의 차이를 최소화하는 새로운且有效的相关性损失(새롭고 효과적인 상관관계 손실)이 설계되었습니다。相互利用低级特征共享和高级预测关联,我们的MTRCNet-CL方法可以在很大程度上促进两个任务之间的交互,从而为彼此带来好处。同样,为了确保句子结构符合韩语习惯,我将对其进行调整:저급 특징 공유와 고급 예측 상관 관계를 상호 활용함으로써, 우리의 MTRCNet-CL 방법은 두 작업 간의 상호작용을 크게 촉진하여 서로에게 이점을 가져올 수 있습니다.在Cholec80这个大型手术视频数据集上的广泛实验表明,我们提出的方法表现出色,始终以较大优势超过现有最先进方法(例如,在工具存在检测中的mAP为89.1% vs 81.0%,在阶段识别中的F1分数为87.4% vs 84.5%)。代码可以在我们的项目网站上找到。为了确保句子结构符合韩语习惯,我将对其进行调整:Cholec80라는 대형 수술 동영상 데이터셋에 대한 광범위한 실험 결과, 제안된 방법이 우수한 성능을 보였으며, 기존 최신 방법들을 크게 능가했습니다 (예: 도구 존재 검출에서 mAP는 89.1% vs 81.0%, 단계 인식에서 F1 점수는 87.4% vs 84.5%). 코드는 우리 프로젝트 웹사이트에서 확인할 수 있습니다.最终翻译结果如下:수술 도구 검출 및 수술 단계 인식은 현대 수술실에서 다양한 응용 분야에서 매우 중요한 구성 요소이지만, 수술 동영상 분석에서 두 가지 근본적이면서도 어려운 과제입니다. 이 두 가지 분석 과제는 임상적으로 수술 과정이 잘 정의되어 있어 서로 밀접한 관련성이 있지만, 대부분의 기존 방법들은 이러한 관련성을 충분히 활용하지 않고 별도로 해결해 왔습니다. 본 논문에서는 두 과제의 관련성을 활용하여 성능을 동시에 향상시키기 위해 상관관계 손실(correlation loss)을 갖춘 다중 작업 순환 컨볼루션 네트워크(Multi-Task Recurrent Convolutional Network with Correlation Loss, MTRCNet-CL)를 개발하는 새로운 방법을 제시합니다.특히, 제안된 MTRCNet-CL 모델은 일반적인 시각적 특징을 추출하기 위한 초기 특징 인코더를 공유하면서 각각의 특정 작업을 목표로 하는 고위층을 유지하는 두 개의 브랜치로 구성된 엔드투엔드(end-to-end) 아키텍처를 가지고 있습니다. 시간 정보가 단계 인식에 중요하기 때문에, 장단기 메모리(Long Short-Term Memory, LSTM)가 사용되어 단계 인식 브랜치에서 순차적 의존성을 모델링합니다. 더욱 중요한 것은, 각 비디오 프레임의 도구 존재와 단계 식별 사이의 관련성을 모델링하기 위해 예측값 간의 차이를 최소화하는 새롭고 효과적인 상관관계 손실이 설계되었습니다.저급 특징 공유와 고급 예측 상관 관계를 상호 활용함으로써, 우리의 MTRCNet-CL 방법은 두 작업 간의 상호작용을 크게 촉진하여 서로에게 이점을 가져올 수 있습니다. Cholec80라는 대형 수술 동영상 데이터셋에 대한 광범위한 실험 결과, 제안된 방법이 우수한 성능을 보였으며, 기존 최신 방법들을 크게 능가했습니다 (예: 도구 존재 검출에서 mAP는 89.1% vs 81.0%, 단계 인식에서 F1 점수는 87.4% vs 84.5%). 코드는 우리 프로젝트 웹사이트에서 확인할 수 있습니다.