Eine kurze Notiz über Kinetics-600

Wir beschreiben eine Erweiterung des DeepMind Kinetics-Datensatzes für menschliche Aktionen von 400 Klassen, jede mit mindestens 400 Videoclips, auf 600 Klassen, jede mit mindestens 600 Videoclips. Um den Datensatz zu vergrößern, haben wir den Datenerhebungsprozess angepasst, sodass mehrere Abfragen pro Klasse verwendet werden, wobei einige dieser Abfragen in einer Sprache anderen als Englisch – Portugiesisch – gestellt werden. Dieser Artikel detailliert die Änderungen zwischen den beiden Versionen des Datensatzes und enthält umfassende Statistiken der neuen Version sowie Baseline-Ergebnisse unter Verwendung der I3D-Neuronalnetz-Architektur. Der Artikel begleitet die Veröffentlichung der Ground-Truth-Labels für den öffentlichen Testdatensatz.