2달 전

무엇을 예상할까요? 롤링-언롤링 LSTM과 모달리티 주의를 이용한 자기중심적 행동 예측

Furnari, Antonino ; Farinella, Giovanni Maria
무엇을 예상할까요? 롤링-언롤링 LSTM과 모달리티 주의를 이용한 자기중심적 행동 예측
초록

egot-centric action anticipation은 카메라 착용자가 가까운 미래에 어떤 물체와 상호작용할 것인지 및 어떤 행동을 수행할 것인지 이해하는 것을 의미합니다. 우리는 이 문제를 다루기 위해 두 개의 LSTM을 사용하여 1) 과거를 요약하고, 2) 미래에 대한 예측을 제시하는 다중 시간 척도에서 행동을 예측할 수 있는 아키텍처를 제안합니다. 입력 비디오는 외관(RGB), 움직임(광학 흐름), 물체(물체 기반 특성)라는 세 가지 보완적인 모달리티를 고려하여 처리됩니다. 모달리티별 예측은 새로운 Modality ATTention (MATT) 메커니즘을 통해 적응적으로 가중치를 학습하여 융합됩니다. 두 개의 대규모 벤치마크 데이터셋에서 광범위한 평가를 거친 결과, 우리의 방법이 도전적인 EPIC-Kitchens 데이터셋(2500개 이상의 행동 포함)에서 최대 +7%까지 이전 연구보다 우수한 성능을 보였으며, EGTEA Gaze+에도 일반화된 것으로 나타났습니다. 또한 우리의 접근 방식은 초기 행동 인식과 행동 인식 작업에도 일반화되는 것으로 확인되었습니다. 우리의 방법은 2019년 EPIC-Kitchens egocentric action anticipation 챌린지의 공개 리더보드에서 1위를 차지했습니다. 코드와 예제는 다음과 같은 웹 페이지에서 확인하실 수 있습니다: http://iplab.dmi.unict.it/rulstm - https://github.com/fpv-iplab/rulstm.

무엇을 예상할까요? 롤링-언롤링 LSTM과 모달리티 주의를 이용한 자기중심적 행동 예측 | 최신 연구 논문 | HyperAI초신경