Ego4D 一人称ビデオ データ セット

Ego4D は、大規模な一人称視点のビデオ データセットです。データセットには 3,025 時間以上のビデオが含まれており、9 か国の 73 の異なる場所から記録されたビデオで構成され、合計 855 人が記録されています。
Ego4D は現在、最大の一人称の日常アクティビティ ビデオ データセットです。一部のショットには、音声、参加者の視線が集中している場所に関するデータ、同じシーンの複数の視点も含まれています。
このデータセットは、次のような新しいベンチマークの課題も示しています。
- エピソード記憶: 私の X はどこですか?
- 手とオブジェクトのインタラクション: インタラクション中にオブジェクトはどのように変化しますか?
- 視聴覚日記: 誰がいつ何を言ったか?
- 社会的交流: 誰が誰と交流しているのか?
- 予測: 次に何が起こるでしょうか?