LoViT: 수술 단계 인식을 위한 장기 비디오 트랜스포머

온라인 수술 단계 인식은 수술 워크플로의 성능을 측정하고 감독하기 위한 문맥적 도구 개발에 중요한 역할을 합니다. 현재 접근 방식은 프레임 레벨 감독을 사용하여 공간 특징 추출기를 훈련시키는 데 한계가 있어, 다른 단계에서 유사한 프레임이 나타나면 잘못된 예측을 할 가능성이 있으며, 계산 제약으로 인해 로컬과 글로벌 특징을 부적절하게 융합하여 긴 비디오 분석에 영향을 미칠 수 있습니다. 이 논문에서는 단기와 장기 시점 정보를 융합하는 두 단계 방법인 Long Video Transformer (LoViT)를 제시합니다. LoViT는 시간적으로 풍부한 공간 특징 추출기와 자기 주의(self-attention) 기반의 두 개의 연속된 L-Trans 모듈로 구성된 다중 스케일 시간 집계기, 그리고 글로벌 시간 정보 처리를 위한 ProbSparse 자기 주의 기반의 G-Informer 모듈을 결합합니다. 다중 스케일 시간 헤드는 로컬과 글로벌 특징을 결합하여 단계 전환 인지를 고려한 감독 하에서 수술 단계를 분류합니다. 우리의 접근 방식은 Cholec80 및 AutoLaparo 데이터셋에서 일관되게 최신 방법론보다 우수한 성능을 보입니다. Trans-SVNet과 비교했을 때, LoViT는 Cholec80에서 비디오 레벨 정확도가 2.4 pp(퍼센트 포인트) 향상되었으며, AutoLaparo에서는 3.1 pp 향상되었습니다. 또한 AutoLaparo에서 단계 레벨 자카드(Jaccard) 지수가 5.3 pp 향상되었고, Cholec80에서는 1.55 pp 향상되었습니다. 우리의 결과는 서로 다른 수술 절차와 시간 순서 특성을 가진 두 데이터셋에서 최신 성능의 수술 단계 인식을 달성하는 데 효과적이며, 긴 비디오 처리 메커니즘을 도입함으로써 이를 입증합니다.