한 달 전

Egocentric Vision의 확장: EPIC-KITCHENS 데이터셋

Dima Damen; Hazel Doughty; Giovanni Maria Farinella; Sanja Fidler; Antonino Furnari; Evangelos Kazakos; Davide Moltisanti; Jonathan Munro; Toby Perrett; Will Price; Michael Wray
Egocentric Vision의 확장: EPIC-KITCHENS 데이터셋
초록

제1인칭 시점은 사람들이 물체와 상호작용하는 방식, 주의를 기울이는 대상, 심지어 의도까지 독특한 관점을 제공하기 때문에 관심을 받고 있습니다. 그러나 충분히 큰 데이터셋이 부족하기 때문에 이 어려운 분야에서의 진전은 상대적으로 느렸습니다. 본 논문에서는 32명의 참가자가 자신의 주방 환경에서 녹화한 대규모 제1인칭 비디오 벤치마크인 EPIC-KITCHENS를 소개합니다. 우리의 비디오는 스크립트가 없는 일상 활동을 묘사합니다: 각 참가자에게 주방에 들어갈 때마다 녹화를 시작하도록 단순히 요청했습니다. 녹화는 북아메리카와 유럽의 4개 도시에서 10개 다른 국적의 참가자들이 참여하여 매우 다양한 요리 스타일을 보여줍니다. 우리의 데이터셋은 55시간의 비디오로 구성되어 있으며, 총 1,150만 프레임으로 밀집적으로 라벨링되어 총 39,600개의 행동 세그먼트와 454,300개의 객체 경계 상자가 포함되어 있습니다. 우리의 주석은 참가자들이 자신의 비디오(녹화 후)를 설명함으로써 진정한 의도를 반영한다는 점에서 독특하며, 이를 바탕으로 군중 소싱을 통해 진실값을 확보하였습니다. 우리는 객체 인식, 행동 인식 및 예측 과제를 설명하고, 두 개의 테스트 분할(관찰된 주방과 미관찰 주방)에 대해 여러 베이스라인을 평가합니다. 데이터셋 및 프로젝트 페이지: http://epic-kitchens.github.io

Egocentric Vision의 확장: EPIC-KITCHENS 데이터셋 | 최신 연구 논문 | HyperAI초신경