11일 전
클래스터: 제로샷 동작 인식을 위한 강화학습을 활용한 클러스터링
Shreyank N Gowda, Laura Sevilla-Lara, Frank Keller, Marcus Rohrbach

초록
제로샷 동작 인식은 시각적 예시 없이, 오직 보이지 않는 클래스와 보이는 클래스를 연결하는 의미적 임베딩(semantic embedding)만을 이용하여 동작 클래스를 인식하는 작업이다. 이 문제는 보이지 않는 클래스의 예시에 대해 잘 일반화되면서도 클래스 간의 구분 능력을 잃지 않는 함수를 학습하는 것으로 볼 수 있다. 신경망은 시각적 클래스 간의 복잡한 경계를 모델링할 수 있어, 감독 학습 모델로서 성공을 거두었다. 그러나 제로샷 학습에서는 이러한 특화된 클래스 경계가 보이는 클래스에서 보이지 않는 클래스로 잘 전이되지 않을 수 있다. 본 논문에서는 시각적 표현과 의미적 표현을 클러스터링하고, 모든 학습 샘플을 동시에 고려하는 중심점 기반 표현(centroid-based representation)을 제안한다. 이를 통해 보이지 않는 클래스의 예시에 대해 잘 일반화할 수 있다. 우리는 이 클러스터링을 강화 학습(Reinforcement Learning)을 통해 최적화하며, 이 과정이 본 방법의 성능을 발휘하는 데 필수적임을 보여준다. 제안한 방법을 CLASTER라 명명하며, UCF101, HMDB51, 올림픽 스포츠 등 표준 데이터셋에서 표준 제로샷 평가 및 일반화된 제로샷 학습 모두에서 기존 최고 성능을 일관되게 초과함을 관찰하였다. 또한, 이미지 영역에서도 경쟁력 있는 성능을 보이며, 많은 설정에서 기존 최고 수준을 뛰어넘는 결과를 얻었다.