2달 전

특권 정보를 활용한 공생적 주의력 모델을 이용한 제1인칭 행동 인식

Wang, Xiaohan ; Wu, Yu ; Zhu, Linchao ; Yang, Yi

초록

제1인칭 비디오 인식은 다양한 상호작용 추론의 자연스러운 테스트베드입니다. 제1인칭 비디오 데이터셋에서 큰 행동 어휘를 가지기 때문에, 최근 연구에서는 일반적으로 동사 분류와 명사 분류를 위한 두 가지 분기 구조를 활용하여 행동 인식을 수행합니다. 그러나 동사와 명사 분지 간의 상관관계에 대한 연구는 대부분 무시되어 왔습니다. 또한, 위치 인식 주의 메커니즘이 부족하기 때문에 두 분지는 국소 특징을 활용하지 못하는 문제점이 있습니다.본 논문에서는 제1인칭 비디오 인식을 위해 특권 정보(Privileged Information)를 활용한 새로운 공생 주의(Symbiotic Attention) 프레임워크(SAP)를 제안합니다. 더 정교한 위치 인식 객체 검출 특징은 행위자가 객체와 어떻게 상호작용하는지를 이해하는 데 도움을 줍니다. 우리는 이러한 특징을 행동 인식에 도입하고 이를 특권 정보로 간주합니다. 우리의 프레임워크는 동사 분지, 명사 분지, 그리고 특권 정보 사이의 상호 통신을 가능하게 합니다. 이 통신 과정은 전역 특징에 국소 세부사항을 주입하면서 동시에 진행 중인 행동의 시공간적 위치에 대한 암시적인 가이드라인을 활용합니다.우리는 효과적인 통신을 가능하게 하기 위해 새로운 공생 주의(SA)를 소개합니다. SA는 한 분지에서 감지된 특징들을 정규화하여 다른 분지에서 관련된 행동 정보를 강조합니다. SA는 세 가지 출처 간의 상호작용을 적응적으로 강화합니다. 이 통신을 더욱 촉진하기 위해, 공간 관계가 가장 관련성이 높은 정보 선택에 사용됩니다. 이는 분류에 가장 가치 있고 차별화된 특징을 식별하는 역할을 합니다.우리는 SAP의 유효성을 양적 및 질적으로 검증하였습니다. 특히, SAP는 두 개의 대규모 제1인칭 비디오 데이터셋에서 최상의 성능(state-of-the-art)을 달성하였습니다.