
초록
시간적 컨볼루션 네트워크(TCNs)는 시간적 비디오 세그멘테이션에 널리 사용되는 아키텍처이다. 그러나 TCNs는 과도한 세그멘테이션 오류를 경험하기 쉬우며, 매끄러움과 시간적 일관성을 보장하기 위해 추가적인 정제 모듈이 필요하다. 본 연구에서는 시퀀스 분할 문제를 해결하기 위한 새로운 시간적 인코더-디코더 아키텍처를 제안한다. 특히 디코더는 다중 시간 해상도의 암묵적 앙상블을 갖춘 거시적에서 미시적 구조를 따르며, 이 앙상블은 더 매끄럽고 정확하며 보다 잘 캘리브레이션된 세그멘테이션을 생성하여 별도의 정제 모듈이 필요 없도록 한다. 또한, 다양한 시간 해상도에 대한 강건성을 향상시키기 위해 다중 해상도 특징 증강 전략을 활용하여 학습을 강화한다. 마지막으로, 아키텍처의 지원과 더 나은 시퀀스 일관성을 촉진하기 위해, 비디오 수준에서의 잘못된 분류에 대해 처벌하는 액션 손실을 제안한다. 실험 결과, 독립적인 아키텍처와 함께 제안된 새로운 특징 증강 전략 및 손실 함수가 세 가지 시간적 비디오 세그멘테이션 벤치마크에서 최신 기술(SOTA)을 초월함을 확인하였다.