9일 전

자기 중심 시각의 스케일 재조정

Dima Damen, Hazel Doughty, Giovanni Maria Farinella, Antonino Furnari, Evangelos Kazakos, Jian Ma, Davide Moltisanti, Jonathan Munro, Toby Perrett, Will Price, Michael Wray
자기 중심 시각의 스케일 재조정
초록

이 논문은 주관적 시각(egocentric vision) 분야에서 가장 큰 데이터셋인 EPIC-KITCHENS를 확장하기 위한 파이프라인을 소개한다. 이 노력의 결과로, 헤드마운트 카메라를 사용하여 45개 환경에서 긴 시간에 걸친 자연스러운 비스토리(비스크립트) 활동을 포착한 700개의 다양한 길이를 가진 영상으로 구성된 EPIC-KITCHENS-100이 탄생하였다. 이 데이터셋은 총 100시간, 2,000만 프레임, 9만 개의 행동을 포함하고 있다. 기존 버전에 비해 EPIC-KITCHENS-100은 새로운 파이프라인을 통해 보다 밀도 높고 완전한 세부 행동(annotation)을 제공하며, 분당 행동 수가 54% 증가하고, 행동 세그먼트 수는 128% 증가하였다. 이 데이터셋은 행동 탐지 및 '시간의 시험(test of time)' 평가라는 새로운 도전 과제를 가능하게 한다. 즉, 2018년에 수집된 데이터로 훈련된 모델이 2년 후에 수집된 새로운 영상에 대해 일반화 가능한지를 평가하는 것이다. 데이터셋은 다음과 같은 6가지 도전 과제와 연계되어 있다: 행동 인식(완전 및 약한 감독), 행동 탐지, 행동 예측, 문장에서의 다모달 검색(retrieval), 그리고 행동 인식을 위한 비지도 도메인 적응. 각 도전 과제에 대해 문제 정의, 기준 모델(baselines), 평가 지표를 제공한다.