2달 전
Objects2action: 비디오 예제 없이 동작 분류 및 위치 결정
Mihir Jain; Jan C. van Gemert; Thomas Mensink; Cees G. M. Snoek

초록
본 논문의 목표는 예제가 필요하지 않은 비디오에서 행동을 인식하는 것입니다. 전통적인 제로샷(zero-shot) 접근 방식과 달리, 본 연구에서는 보이는 클래스에서 보이지 않는 클래스로의 전송을 허용하기 위해 속성 분류기와 클래스-속성 매핑의 설계 및 지정을 요구하지 않습니다. 우리의 주요 기여는 객체2행동(objects2action)으로, 수천 개의 객체 범주를 기반으로 하는 스킵그램 모델에 의해 형성된 의미론적 단어 임베딩입니다. 보이지 않는 비디오의 객체 인코딩에 행동 라벨은 행동과 객체 간의 친화도를 기반으로 한 볼록 조합(convex combination)을 통해 할당됩니다. 우리의 의미론적 임베딩은 행동의 특성을 고려하기 위한 세 가지 주요 특성을 가지고 있습니다. 첫째, 여러 단어로 설명되는 행동과 객체를 활용하기 위한 메커니즘을 제안합니다. 둘째, 각 행동에 대해 가장 반응성이 높은 객체들을 자동으로 선택하는 방법을 통합합니다. 마지막으로, 제로샷 접근 방식을 비디오에서 행동의 시공간 위치 추정(spatio-temporal localization)으로 확장하는 방법을 시연합니다. 네 개의 행동 데이터셋에 대한 실험 결과가 우리 접근 방식의 잠재력을 입증하고 있습니다.