1ヶ月前
エゴセントリックビジョンのスケーリング:EPIC-KITCHENSデータセット
Dima Damen; Hazel Doughty; Giovanni Maria Farinella; Sanja Fidler; Antonino Furnari; Evangelos Kazakos; Davide Moltisanti; Jonathan Munro; Toby Perrett; Will Price; Michael Wray

要約
第一人称視覚が注目を集めています。これは、人々の物体との相互作用、注意の対象、さらには意図について独自の視点を提供するからです。しかし、この困難な分野での進展は、十分に大規模なデータセットが不足しているため、比較的遅いものとなっています。本論文では、32人の参加者が自宅のキッチン環境で記録した大規模な主観視点ビデオベンチマークであるEPIC-KITCHENSを紹介します。私たちのビデオはスクリプトなしの日常活動を描写しており、各参加者に対してキッチンに入ったときに記録を開始するようただ単純に依頼しました。記録は北米とヨーロッパの4つの都市で行われ、10種類の国籍を持つ参加者によって実施され、非常に多様な調理スタイルが得られました。当データセットには55時間のビデオ(1150万フレーム)が含まれており、これには39600個の行動セグメントと454300個の物体バウンディングボックスが密集してラベリングされています。当データセットのアノテーションは特異であり、参加者に自身のビデオ(記録後)を語ってもらうことで真実の意図を反映させています。また、これらの叙述に基づいてクラウドソーシングにより真実値を作成しました。物体認識、行動認識および予測に関する課題について説明し、既知および未知のキッチンに対する2つのテスト分割においていくつかのベースラインモデルを評価しています。データセットおよびプロジェクトページ: http://epic-kitchens.github.io