11일 전

행동 분할을 위한 시간적 장기적 맥락은 얼마나 필요한가?

Emad Bahrami, Gianpiero Francesca, Juergen Gall
행동 분할을 위한 시간적 장기적 맥락은 얼마나 필요한가?
초록

비디오에서 장기적 문맥을 모델링하는 것은 시계열 행동 분할과 같은 정교한 작업에 있어 매우 중요하다. 아직 해결되지 않은 흥미로운 질문은 최적의 성능을 얻기 위해 얼마나 긴 장기 시계적 문맥이 필요한가이다. 트랜스포머는 비디오의 장기적 시계적 문맥을 모델링할 수 있지만, 긴 비디오에 대해서는 계산 비용이 과도해져 실용성이 떨어진다. 최근 시계열 행동 분할 작업에서는 지역적 시계적 창 내에서만 자기 주목(self-attention)을 계산하는 시간적 컨볼루션 네트워크와 결합한 접근법이 제안되었다. 이러한 방법들은 우수한 성능을 보였지만, 비디오의 전체 문맥을 포착하지 못한다는 한계로 인해 성능이 제한된다. 본 연구에서는 장기적 시계적 문맥이 시계열 행동 분할에 얼마나 필요한지를 규명하기 위해, 희소 주목(sparse attention)을 활용하여 비디오의 전체 문맥을 포착하는 트랜스포머 기반 모델을 제안한다. 우리는 50Salads, Breakfast, Assembly101 세 가지 시계열 행동 분할 데이터셋에서 현재 최고 성능 모델과 본 모델을 비교하였다. 실험 결과, 시계열 행동 분할에서 최고의 성능을 달성하기 위해서는 비디오의 전체 문맥을 모델링하는 것이 필수적임을 확인하였다.

행동 분할을 위한 시간적 장기적 맥락은 얼마나 필요한가? | 최신 연구 논문 | HyperAI초신경