2달 전

AOE-Net: 적응형 주의 메커니즘을 사용한 시간적 행동 제안 생성을 위한 엔티티 상호작용 모델링

Khoa Vo; Sang Truong; Kashu Yamazaki; Bhiksha Raj; Minh-Triet Tran; Ngan Le
AOE-Net: 적응형 주의 메커니즘을 사용한 시간적 행동 제안 생성을 위한 엔티티 상호작용 모델링
초록

시간적 행동 제안 생성(TAPG)은 비디오에서 행동 구간을 정확히 위치시키는 어려운 과제입니다. 직관적으로 인간은 배우자, 관련 객체, 그리고 주변 환경 간의 상호작용을 통해 행동을 인식합니다. TAPG 분야에서 상당한 진전이 이루어졌음에도 불구하고, 대부분의 기존 방법들은 이러한 인간의 인식 원칙을 무시하고 주어진 비디오를 블랙박스로 처리하는 백본 네트워크를 적용합니다. 본 논문에서는 이러한 상호작용을 다중 모달 표현 네트워크인 배우자-객체-환경 상호작용 네트워크(AOE-Net)를 통해 모델링하는 방법을 제안합니다. 우리의 AOE-Net은 두 개의 모듈로 구성되어 있으며, 이는 지각 기반 다중 모달 표현(PMR)과 경계 일치 모듈(BMM)입니다. 또한, PMR에서 적응적 주의 메커니즘(AAM)을 도입하여 주요 배우자(또는 관련 객체)에만 집중하고 그들 사이의 관계를 모델링하도록 하였습니다. PMR 모듈은 각 비디오 조각(snippet)을 시각-언어 특징으로 표현하며, 여기서 주요 배우자와 주변 환경은 시각 정보로 표현되고, 관련 객체는 이미지-텍스트 모델을 통해 언어 특징으로 묘사됩니다. BMM 모듈은 시각-언어 특징의 시퀀스를 입력으로 처리하여 행동 제안을 생성합니다. ActivityNet-1.3 및 THUMOS-14 데이터셋에서 수행된 포괄적인 실험과 광범위한 축소 연구(ablation study) 결과, 제안된 AOE-Net이 TAPG와 시간적 행동 검출 모두에서 이전 최신 기법들을 크게 능가하는 성능과 일반화 능력을 보임을 확인할 수 있었습니다. AOE-Net의 강건성과 효과성을 증명하기 위해, 우리는 EPIC-KITCHENS 100 데이터셋과 같은 자기 중심적 비디오에서도 축소 연구를 수행하였습니다. 소스 코드는 논문이 수락되면 제공될 예정입니다.

AOE-Net: 적응형 주의 메커니즘을 사용한 시간적 행동 제안 생성을 위한 엔티티 상호작용 모델링 | 최신 연구 논문 | HyperAI초신경