9일 전
자기 중심 영상에서 행동을 예측하기 위한 다중 모달 시간 컨볼루션 네트워크
Olga Zatsarynna, Yazan Abu Farha, Juergen Gall

초록
사람의 행동을 예측하는 것은 자율주행 차량이나 로봇 보조자와 같은 신뢰할 수 있는 지능형 에이전트를 개발하기 위해 해결해야 할 중요한 과제이다. 예측 정확도가 높은 미래 예측 능력은 예측 기법을 설계하는 데 필수적이지만, 추론 속도 역시 마찬가지로 중요하다. 정확도는 높지만 충분히 빠르지 않은 방법은 의사결정 과정에 높은 지연(latency)을 유발하게 되며, 이는 기반 시스템의 반응 시간을 증가시킨다. 이는 반응 시간이 핵심적인 분야인 자율주행과 같은 분야에 문제를 야기한다. 본 연구에서는 시간적 합성곱(temporal convolution) 기반의 간단하고 효과적인 다중 모달 아키텍처를 제안한다. 제안하는 방법은 순환층(recurrent layer)에 의존하지 않고 시간적 합성곱 계층의 계층 구조를 중첩함으로써 빠른 예측을 보장한다. 또한 RGB, 광흐름(flow), 객체 모달 간의 쌍별 상호작용을 포착하는 다중 모달 융합 메커니즘을 도입하였다. 자가 중심 영상(egocentric video)의 두 대규모 데이터셋인 EPIC-Kitchens-55 및 EPIC-Kitchens-100에서의 실험 결과, 제안한 방법은 최신 기술 수준의 성능과 비슷한 성능을 달성하면서도 상당히 더 빠른 속도를 보였다.