9일 전

1인칭 비디오에서 행동 예측을 위한 롤링-언롤링 LSTMs

Antonino Furnari, Giovanni Maria Farinella
1인칭 비디오에서 행동 예측을 위한 롤링-언롤링 LSTMs
초록

본 논문에서는 카메라 착용자(이하 ‘카메라 주관적’)가 곧바로 수행할 행동과 상호작용할 객체를 예측하는 카메라 주관적 행동 예측 문제에 대응한다. 구체적으로, 카메라 주관적 영상에서 행동을 예측하기 위한 학습 아키텍처인 Rolling-Unrolling LSTM(RULSTM)을 제안한다. 이 방법은 세 가지 구성 요소에 기반한다. 첫째, 과거를 요약하고 미래를 추론하는 하위 작업을 모델링하기 위해 두 개의 LSTM으로 구성된 아키텍처를 활용한다. 둘째, Sequence Completion Pre-Training 기법을 도입하여 LSTM이 각각의 하위 작업에 집중하도록 유도한다. 셋째, RGB 프레임, 광학 흐름 필드, 객체 기반 특징을 처리하여 수행되는 다중 모달 예측을 효율적으로 융합하기 위한 모달 ATTention(MATT) 메커니즘을 제안한다. 제안된 접근법은 EPIC-Kitchens, EGTEA Gaze+ 및 ActivityNet 데이터셋에서 검증되었으며, 카메라 주관적 영상 분야에서 최신 기술 수준의 성능을 달성하여 2019년 EPIC-Kitchens 카메라 주관적 행동 예측 챌린지에서 최고 성능을 기록했다. 또한 비지도 사전 학습을 사용하지 않는 기법들과 비교했을 때 ActivityNet에서 경쟁력 있는 성능을 보였으며, 조기 행동 인식 및 일반 행동 인식과 같은 다른 임무에도 일반화 가능함을 확인했다. 이 도전적인 주제에 대한 연구를 촉진하기 위해, 본 연구의 소스 코드, 학습된 모델, 사전 추출된 특징을 연구자들이 자유롭게 활용할 수 있도록 웹사이트(http://iplab.dmi.unict.it/rulstm)에 공개하였다.