11일 전
크로스모달 표현 학습을 통한 제로샷 동작 인식
Chung-Ching Lin, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu

초록
우리는 영상 데이터와 텍스트 레이블을 함께 인코딩하여 제로샷 행동 인식(Zero-Shot Action Recognition, ZSAR)을 수행하는 크로스모달 트랜스포머 기반 프레임워크를 제안한다. 본 모델은 시각적 표현과 시각-의미적 연관성(visual-semantic associations)을 종단 간(end-to-end)으로 동시에 학습하는 개념적으로 새로운 파이프라인을 도입한다. 모델 설계는 시각적 표현과 의미적 표현이 공유 지식 공간(shared knowledge space) 내에서 자연스럽게 학습되도록 하는 메커니즘을 제공하며, 이는 학습된 시각적 임베딩이 더 구분 가능하고 의미적으로 더 일관성 있게 되도록 유도한다. 제로샷 추론 시, 학습된 클래스와 미학습 클래스 간의 의미적 유사성 정보를 통합하여 미학습 클래스의 시각적 프로토타입을 구성하는 간단한 의미 전이(semantic transfer) 기법을 제안한다. 이를 통해 시각 구조 내의 구분 가능한 특징들이 유지되고 활용되어, 전형적인 제로샷 문제인 정보 손실, 의미 갭(semantic gap), 허브니스 문제(hubness problem)를 완화할 수 있다. 추가 데이터셋에서의 사전 학습 없이 엄격한 제로샷 설정 하에서의 실험 결과, 본 모델은 UCF101, HMDB51, ActivityNet 기준 데이터셋에서 기존 최고 성능 모델들을 상회하며 유의미한 상위-1 정확도를 달성하였다. 코드는 공개될 예정이다.