제로샷 동작 인식의 재고: 잠재적 원자 동작에서 학습하기

감독 학습 기반의 동작 인식 모델을 적용할 때 발생하는 시간이 많이 소요되는 레이블링 및 재학습 주기 문제를 해결하기 위해, 제로샷 동작 인식(Zero-Shot Action Recognition, ZSAR)이 활발한 연구 방향으로 부상하고 있다. ZSAR는 학습 데이터셋에 등장하지 않은 동작을 시각적 특징과 의미적 표현 간의 연결을 통해 인식할 수 있도록 요구한다. 그러나 동작의 복잡성으로 인해, 원본 동작 도메인에서 학습한 지식을 타겟 동작 도메인으로 효과적으로 전이하는 것은 여전히 도전 과제이다. 기존의 ZSAR 기법들은 주로 원본 동작과 타겟 동작 간의 표현 변동성을 줄이기 위해 새로운 동작 수준의 특징을 통합하거나 적용하는 데 집중해 왔다. 그러나 동작 수준의 특징은 거시적이고, 유사한 타겟 동작에 대해 학습된 일대일 연결이 취약해지는 문제가 있다. 더불어 특징의 통합 또는 적용은 일반적으로 추가적인 계산 부담이나 레이블링 작업을 수반한다. 이러한 기법들은 서로 다른 이름을 가진 두 동작이 동일한 원자적 동작 구성 요소를 공유할 수 있다는 점을 간과하고 있다. 인간은 이미 학습한 동작들로부터 얻은 원자적 동작들을 바탕으로, 새로운 동작을 빠르게 이해할 수 있다. 이러한 인지를 바탕으로, 본 논문에서는 복합 동작을 원자적 동작들의 조합으로 비지도적으로 분해하고, 시각적 특징과 의미적 표현 간의 그룹 간 관계를 연결함으로써 동작을 인식하는 Jigsaw Network(JigsawNet)을 제안한다. 학습된 그룹 간 연결의 강건성을 높이기 위해, 샘플 내 지식을 모델링하는 Group Excitation(GE) 모듈과 샘플 간 지식을 학습하도록 유도하는 Consistency Loss를 제안한다. 제안한 JigsawNet은 세 가지 기준 데이터셋에서 최신 기술 수준의 성능을 달성하며, 기존의 방법들에 비해 유의미한 성능 향상을 보였다.