2달 전

TARN: 시간 주의 관계 네트워크를 이용한 소수 샷 및 제로 샷 행동 인식

Mina Bishay; Georgios Zoumpourlis; Ioannis Patras
TARN: 시간 주의 관계 네트워크를 이용한 소수 샷 및 제로 샷 행동 인식
초록

본 논문에서는 소수 샘플 학습(few-shot) 및 제로 샷(zero-shot) 행동 인식 문제를 위한 새로운 시계열 주의 관계 네트워크(Temporal Attentive Relation Network, TARN)를 제안합니다. 우리 네트워크의 핵심은 가변 길이의 표현을 비교하는 메타 학습 접근법입니다. 즉, 소수 샘플 행동 인식의 경우 두 개의 다른 길이의 비디오를, 제로 샷 행동 인식의 경우 비디오와 단어 벡터 등의 의미론적 표현을 비교합니다. 다른 소수 샘플 및 제로 샷 행동 인식 연구들과 달리, 우리는 a) 주의 메커니즘을 활용하여 시간축 정렬(temporal alignment)을 수행하고, b) 정렬된 표현들 사이에서 비디오 세그먼트 수준에서 깊은 거리 측정(deep-distance measure)을 학습합니다. 에피소드 기반 학습 방식을 채택하여 네트워크를 엔드 투 엔드(end-to-end)로 훈련시킵니다. 제안된 방법은 타겟 도메인에서 미세 조정(fine-tuning)이 필요하지 않고, 메모리 네트워크와 같은 추가적인 표현 유지가 요구되지 않습니다. 실험 결과는 제안된 아키텍처가 소수 샘플 행동 인식에서 최신 연구보다 우수한 성능을 보임을 입증하며, 제로 샷 행동 인식에서도 경쟁력 있는 결과를 얻고 있음을 보여줍니다.