17일 전
시간-관계 교차 변환기(Temporal-Relational CrossTransformers)를 이용한 소수 샘플 동작 인식
Toby Perrett, Alessandro Masullo, Tilo Burghardt, Majid Mirmehdi, Dima Damen

초록
우리는 쿼리와 지원 세트 내 비디오 간의 시간적으로 대응하는 프레임 튜플을 탐색하는 새로운 접근법을 제안한다. 기존의 소수 샘플 행동 인식 기법들과는 달리, 클래스 평균이나 단일 최적 매칭을 사용하는 대신, CrossTransformer 주의 메커니즘을 활용하여 모든 지원 비디오의 관련 서브시퀀스를 관찰함으로써 클래스 프로토타입을 구축한다. 다양한 프레임 수를 가진 정렬된 프레임 튜플로부터 비디오 표현을 형성함으로써, 다양한 속도와 시간 오프셋을 가진 행동의 서브시퀀스를 비교할 수 있다.제안하는 시간관계적 크로스트랜스포머(Temporal-Relational CrossTransformers, TRX)는 Kinetics, Something-Something V2(SSv2), HMDB51, UCF101의 소수 샘플 분할에서 최신 기술 수준의 성능을 달성하였다. 특히, 시간 관계를 모델링할 수 있는 능력 덕분에 SSv2에서 기존 방법보다 큰 폭(12%)의 성능 향상을 보였다. 철저한 실험 분석을 통해 다수의 지원 세트 비디오와의 매칭 및 고차원 관계적 CrossTransformer 학습의 중요성을 입증하였다.