2달 전
Query Adaptive Transformer를 이용한 Few-Shot 시계열 행동 위치 추정
Nag, Sauradip ; Zhu, Xiatian ; Xiang, Tao

초록
기존의 시간적 행동 위치 추정(TAL) 연구들은 많은 수의 훈련 비디오와 완전한 세그먼트 단위 주석에 의존하여, 새로운 클래스로 확장하는 것을 방해하고 있습니다. 이 문제를 해결하기 위해 소수 샷 TAL(FS-TAL)은 단 하나의 비디오만으로도 새로운 클래스에 모델을 적응시키는 것을 목표로 합니다. 기존의 FS-TAL 방법들은 새로운 클래스에 대한 잘라낸 훈련 비디오를 가정하지만, 이 설정은 자연스럽지 않으며 일반적으로 행동은 잘라내지 않은 비디오에서 캡처됩니다. 또한, 이 설정은 배경 비디오 세그먼트가 전경 행동 분할에 중요한 맥락 정보를 포함하고 있다는 사실을 무시합니다.본 연구에서는 먼저 잘라내지 않은 훈련 비디오를 사용하는 새로운 FS-TAL 설정을 제안합니다. 더 나아가, 훈련 클래스로부터 지식 전달을 최대화하면서 동시에 모델이 새로운 클래스와 그 클래스의 각 비디오에 동적으로 적응할 수 있도록 하는 혁신적인 FS-TAL 모델을 제안합니다. 이를 위해 모델 내부에 쿼리 적응형 트랜스포머(query adaptive Transformer)를 도입하였습니다. 두 개의 행동 위치 추정 벤치마크에서 수행된 광범위한 실험 결과, 본 방법론이 단일 도메인과 크로스 도메인 시나리오 모두에서 모든 최신 대안들을 크게 능가함을 입증하였습니다. 소스 코드는 https://github.com/sauradip/fewshotQAT 에서 확인할 수 있습니다.