11일 전
행동 분할에 실제로 시간적 컨볼루션을 필요로 하는가?
Dazhao Du, Bing Su, Yu Li, Zhongang Qi, Lingyu Si, Ying Shan

초록
행동 분류 분야는 큰 진전을 이뤘지만, 긴 트림되지 않은 영상에서 행동을 세그먼트화하고 인식하는 것은 여전히 도전적인 문제로 남아 있다. 대부분의 최신 기법들은 시간적 컨볼루션 기반 모델을 설계하는 데 집중하고 있으나, 시간적 컨볼루션의 유연성 부족과 장기적 시간적 의존성 모델링의 어려움으로 인해 이러한 모델의 잠재력이 제한된다. 최근에는 적응형이고 시퀀스 모델링 능력을 갖춘 트랜스포머 기반 모델이 다양한 작업에 활용되고 있다. 그러나 트랜스포머의 유도 편향(inductive bias) 부족과 긴 영상 시퀀스 처리의 비효율성은 트랜스포머의 행동 세그멘테이션 적용을 제한한다. 본 논문에서는 시간적 샘플링을 도입하여 시간적 컨볼루션 없이 순수한 트랜스포머 기반 모델을 설계하였으며, 이를 Temporal U-Transformer(TUT)라 명명한다. U-Transformer 아키텍처는 복잡도를 감소시키면서도 인접 프레임이 동일한 클래스에 속할 가능성이 높다는 유도 편향을 도입하지만, 거친 해상도를 도입함으로써 경계의 잘못 분류가 발생한다. 우리는 경계 프레임과 그 이웃 프레임 간의 유사도 분포는 해당 경계 프레임이 행동 세그먼트의 시작인지 종료인지에 따라 달라진다는 점을 관찰하였다. 따라서, 주의(attention) 모듈에서 생성된 프레임 간 유사도 점수의 분포를 기반으로 경계 인식 능력을 향상시키기 위한 경계 인식 기반 손실 함수를 제안한다. 광범위한 실험을 통해 제안한 모델의 효과성을 입증하였다.