
증가하는 행동 클래스의 수는 비디오 이해 분야에 새로운 도전을 제기하며, 제로샷 행동 인식(Zero-Shot Action Recognition, ZSAR)이 활발한 연구 방향으로 부상하고 있다. ZSAR 작업은 보여진(학습된) 행동과 보이지 않은(미지의) 행동 간의 차이를 보완하기 위해 의미론적 표현을 활용하여, 학습 예제 없이도 목표 행동을 인식하는 것을 목표로 한다. 그러나 행동의 복잡성과 다양성으로 인해, 행동 클래스를 의미론적으로 효과적으로 표현하고, 보여진 데이터로부터 지식을 전이하는 것은 여전히 도전 과제이다. 본 연구에서는 인간의 기억 기법인 ‘세부적 반복(Elaborative Rehearsal, ER)’에 영감을 받아 ER을 강화한 ZSAR 모델을 제안한다. 이 기법은 새로운 개념을 세부적으로 설명하고 기존의 개념과 연결하는 방식으로 작동한다. 구체적으로, 각 행동 클래스를 더 구분력이 뛰어나고 수동적으로 정의된 속성보다 비용이 낮은 ‘세부적 설명(Elaborative Description, ED)’ 문장으로 확장한다. 또한, 클래스 의미를 비디오와 직접 정렬하는 것 외에도, 비디오 내 객체를 ‘세부적 개념(Elaborative Concepts, EC)’으로 활용하여 비디오의 의미 표현을 향상시키고, 보여진 행동에서 미지의 행동으로의 일반화 능력을 강화한다. 제안한 ER 기반 ZSAR 모델은 기존 3개의 벤치마크에서 최고 성능을 달성하였다. 더불어, 현재 벤치마크의 한계를 극복하기 위해 Kinetics 데이터셋 기반으로 새로운 ZSAR 평가 프로토콜을 제안하였으며, 더 현실적인 환경에서 ZSAR 성능이 소수 샘플 학습(few-shot learning) 기준선과 유사한 수준에 도달하는 최초의 사례를 보여주었다. 코드 및 수집한 ED 데이터는 https://github.com/DeLightCMU/ElaborativeRehearsal 에 공개할 예정이다.