Skalierung der egozentrischen Vision: Der EPIC-KITCHENS-Datensatz

Die erste Person Perspektive gewinnt zunehmend an Interesse, da sie eine einzigartige Sichtweise auf die Interaktion von Menschen mit Objekten, ihre Aufmerksamkeit und sogar Absichten bietet. Fortschritte in diesem anspruchsvollen Bereich sind jedoch aufgrund des Mangels an ausreichend großen Datensätzen relativ langsam vorangegangen. In dieser Arbeit stellen wir EPIC-KITCHENS vor, einen umfangreichen Benchmark für egozentrische Videos, die von 32 Teilnehmern in ihren natürlichen Küchenumgebungen aufgezeichnet wurden. Unsere Videos zeigen unskriptierte Alltagsaktivitäten: Wir baten jeden Teilnehmer lediglich, jedes Mal zu beginnen, wenn sie ihre Küche betreten. Die Aufnahmen fanden in 4 Städten (in Nordamerika und Europa) statt, wobei die Teilnehmer 10 verschiedene Nationalitäten vertreten, was zu sehr unterschiedlichen Kochstilen führt. Unser Datensatz umfasst 55 Stunden Video mit insgesamt 11,5 Millionen Bildern, die wir dicht annotiert haben, wodurch insgesamt 39.600 Aktionsschnitte und 454.300 Objektbegrenzungsrahmen entstanden sind. Unsere Annotation ist einzigartig dadurch, dass wir die Teilnehmer baten, ihre eigenen Videos nach der Aufnahme zu erzählen (nach dem Aufnehmen), sodass echte Absichten widergespiegelt werden; darauf basierend ließen wir Ground-Truths durch Crowdsourcing erstellen. Wir beschreiben unsere Herausforderungen im Bereich Objekte, Aktionen und Vorhersage und evaluieren mehrere Baseline-Methoden über zwei Testaufteilungen: gesehene und unge-sehene Küchen. Datensatz und Projektseite: http://epic-kitchens.github.io