2달 전

egotistic actions의 어휘를 열다

Dibyadip Chatterjee; Fadime Sener; Shugao Ma; Angela Yao

초록

제1인칭 비디오에서 인간의 행동은 주로 동사(손이 수행)와 객체가 결합된 손-객체 상호작용으로 구성됩니다. 그러나 제1인칭 데이터셋은 여전히 두 가지 제한을 가지고 있습니다 - 행동 조합의 희소성과 상호작용하는 객체의 폐쇄적 집합입니다. 본 논문에서는 새로운 오픈 보카브러리 행동 인식 작업을 제안합니다. 훈련 중에 관찰된 동사와 객체 집합이 주어졌을 때, 목표는 이 동사를 기존과 새로운 객체를 포함하는 오픈 보카브러리 행동으로 일반화하는 것입니다. 이를 위해 우리는 객체 무관한 동사 인코더와 프롬프트 기반 객체 인코더를 통해 동사와 객체 예측을 분리합니다. 프롬프팅은 CLIP 표현을 활용하여 오픈 보카브러리 상호작용 객체를 예측합니다. 우리는 EPIC-KITCHENS-100 및 Assembly101 데이터셋에서 오픈 보카브러리 벤치마크를 생성하였으며, 폐쇄적 행동 방법들이 일반화에 실패하는 반면, 제안된 방법은 효과적이었습니다. 또한, 우리의 객체 인코더는 새로운 상호작용 객체를 인식하는 데 있어 기존의 오픈 보카브러리 시각 인식 방법들보다 크게 우수한 성능을 보였습니다.