17일 전

시간적 제약을 가진 신경망(TCNN): 반감독 비디오 의미 분할을 위한 프레임워크

Deepak Alapatt, Pietro Mascagni, Armine Vardazaryan, Alain Garcia, Nariaki Okamoto, Didier Mutter, Jacques Marescaux, Guido Costamagna, Bernard Dallemagne, Nicolas Padoy
시간적 제약을 가진 신경망(TCNN): 반감독 비디오 의미 분할을 위한 프레임워크
초록

효율적인 의미 분할(semantic segmentation) 모델, 특히 영상 의미 분할(video semantic segmentation) 모델을 구축하는 데 있어 주요한 장벽은 대규모이고 정밀하게 레이블링된 데이터셋의 부족이다. 이 문제는 영상 의미 분할이 중요한 응용 가능성을 지닌 분야이지만 데이터와 전문가 레이블링이 극도로 부족한 의료 및 수술과 같은 전문성과 규제가 강한 분야에서 더욱 심각한 제약으로 작용한다. 이러한 환경에서는 훈련 과정에서 시간적 정보(temporal clues)와 해부학적 제약(anatomical constraints)을 활용함으로써 성능을 향상시킬 수 있다. 본 연구에서는 수술 영상의 영상 의미 분할을 위한 반감독 학습 프레임워크인 시간적 제약을 가진 신경망(Temporaly Constrained Neural Networks, TCNN)을 제안한다. 본 연구에서는 오토인코더 네트워크가 깊은 학습 모델 훈련을 위해 공간적 및 시간적 감독 신호를 효율적으로 제공할 수 있음을 보여준다. 제안한 방법은 최신으로 공개된 복강경 담낭절제술 수술 영상 데이터셋인 Endoscapes와 공개된 백내장 수술 데이터셋 CaDIS의 변형 버전에 대해 검증하였다. 실험 결과, 예측 마스크의 저차원 표현을 활용하면 레이블이 희소한 데이터셋에서 일관된 성능 향상을 달성할 수 있으며, 추론 시 추가적인 계산 비용 없이도 가능함을 입증하였다. 또한 TCNN 프레임워크는 모델 독립적(model-agnostic)이며, 다른 모델 설계 선택과 함께 사용할 수 있으며, 추가적인 복잡성 없이 간편하게 통합 가능함을 보였다.

시간적 제약을 가진 신경망(TCNN): 반감독 비디오 의미 분할을 위한 프레임워크 | 최신 연구 논문 | HyperAI초신경