11일 전
시퀀스에서 시퀀스로의 번역을 통한 통합적 완전 및 타임스탬프 감독 하의 시계열 동작 세그멘테이션
Nadine Behrmann, S. Alireza Golestaneh, Zico Kolter, Juergen Gall, Mehdi Noroozi

초록
이 논문은 완전한 타임스탬프 지도 하에서 시퀀스에서 시퀀스(seq2seq) 번역을 통한 영상 행동 분할을 위한 통합 프레임워크를 제안한다. 기존 최신의 프레임 수준 예측 방법들과는 달리, 본 연구는 행동 분할을 seq2seq 번역 작업으로 간주한다. 즉, 영상 프레임의 시퀀스를 행동 세그먼트의 시퀀스로 매핑하는 과정으로 본다. 제안하는 방법은 표준 Transformer 기반 seq2seq 번역 모델에 대해 긴 입력 시퀀스와 짧은 출력 시퀀스, 그리고 상대적으로 적은 영상 데이터라는 도전 과제를 해결하기 위해 일련의 수정 사항과 보조 손실 함수를 도입한다. 인코더에 프레임 단위 손실을 통한 보조 지도 신호를 도입하고, 암묵적인 지속 시간 예측을 위한 별도의 어텐션 디코더를 제안한다. 마지막으로, 제안된 제약 조건이 적용된 k-medoids 알고리즘을 통해 타임스탬프 지도 설정으로 프레임워크를 확장하여 가상 세그먼테이션을 생성한다. 제안한 프레임워크는 완전 지도 및 타임스탬프 지도 설정 모두에서 일관된 성능을 보이며, 여러 데이터셋에서 최신 기술을 능가하거나 경쟁력을 갖춘다. 본 연구의 코드는 공개되어 있으며, https://github.com/boschresearch/UVAST 에서 확인할 수 있다.