17일 전

깊이 분리형 시공간 컨볼루션 네트워크를 이용한 동작 세그멘테이션

{Heiko Neumann, Wolfgang Mader, Christian Jarvers, Basavaraj Hampiholi}
초록

긴, 자르지 않은 RGB 영상에서의 미세한 시간적 행동 분할은 시각적 인간-기계 상호작용 분야에서 핵심적인 주제이다. 최근의 시간적 컨볼루션 기반 접근법들은 either 인코더-디코더(ED) 아키텍처를 사용하거나, 연속된 컨볼루션 계층에서 두 배 증가하는 확장 인자(dilation factor)를 활용하여 영상 내 행동을 분할한다. 그러나 ED 네트워크는 낮은 시간 해상도에서 작동하며, 연속 계층 내에서의 확장은 격자 아티팩트(Gridding Artifacts) 문제를 야기한다. 본 연구에서는 전체 시간 해상도에서 작동하며 격자 아티팩트가 감소된 깊이 분리형 시간적 컨볼루션 네트워크(Deepwise Separable Temporal Convolution Network, DS-TCN)를 제안한다. DS-TCN의 기본 구성 요소는 잔차형 깊이 분리 확장 블록(Residual Depthwise Dilated Block, RDDB)이다. RDDB를 활용하여 큰 커널 크기와 작은 확장률 사이의 상충 관계를 탐색한다. 본 연구에서는 DS-TCN이 장기적 의존성과 지역적 시간적 특징을 효율적으로 포착할 수 있음을 보여준다. GTEA, 50Salads, Breakfast 세 가지 벤치마크 데이터셋에서의 평가 결과, DS-TCN은 비교적 적은 파라미터 수로도 기존의 ED-TCN 및 확장 기반 TCN 기준 모델들을 모두 능가함을 확인하였다.

깊이 분리형 시공간 컨볼루션 네트워크를 이용한 동작 세그멘테이션 | 최신 연구 논문 | HyperAI초신경