LoCATe-GAT: 제로샷 동작 인식을 위한 다중 스케일 국소적 컨텍스트 및 동작 관계 모델링
실세계에서 발생하는 행동의 수가 증가함에 따라 기존의 딥러닝 모델이 미지의 행동을 인식하는 데 어려움을 겪고 있다. 최근에는 사전 훈련된 대조형 이미지-언어 기반 시각-언어(I-VL) 모델이 효율적인 '제로샷(Zero-shot)' 장면 이해를 위해 활용되고 있다. 이러한 모델을 트랜스포머와 결합하여 시계열 모델링을 구현함으로써 제로샷 행동 인식(ZSAR)에 긍정적인 성과가 나타났다. 그러나 객체와 행동 환경의 국소적 공간적 맥락을 모델링하는 중요성은 여전히 탐색되지 않은 상태이다. 본 연구에서는 새로운 국소적 맥락 집약형 시계열 트랜스포머(LoCATe)와 그래프 주의망(GAT)으로 구성된 ZSAR 프레임워크인 LoCATe-GAT을 제안한다. 구체적으로, 사전 훈련된 I-VL 모델로부터 추출한 이미지 및 텍스트 인코딩을 LoCATe-GAT의 입력으로 사용한다. 행동 간 구분 가능성과 기능적 유사성을 이끄는 객체 중심 및 환경적 맥락을 고려하여, LoCATe는 시계열 모델링 과정에서 확장된 컨볼루션 계층을 활용해 다중 해상도의 국소적 맥락을 캡처한다. 또한 제안하는 GAT은 클래스 간 의미적 관계를 모델링하며, LoCATe가 생성한 동영상 임베딩과 강한 상호보완적 상호작용을 이룬다. UCF101, HMDB51, ActivityNet, Kinetics 등 네 가지 널리 사용되는 벤치마크에서 실시한 광범위한 실험 결과, 본 연구는 최신 기술 수준(SOTA)의 성능을 달성하였다. 특히 기존 설정에서 각각 3.8%, 4.8%의 상대적 성능 향상과, 일반화된 제로샷 행동 인식(GZSAR) 설정에서 UCF101에서 16.6%의 상대적 향상을 기록하였다. 대규모 데이터셋인 ActivityNet과 Kinetics에 대해서는 각각 이전 방법 대비 31.8%, 27.9%의 상대적 성능 향상을 달성하였다. 또한 최근의 "TruZe" 평가 프로토콜에 따르면, UCF101과 HMDB51에서 각각 25.3%, 18.4%의 성능 향상을 얻었다.