vor 2 Monaten

Wohin geht die Aktionserkennung? Ein neues Modell und der Kinetics-Datensatz

Joao Carreira; Andrew Zisserman

Abstract

Die Kargheit an Videos in aktuellen Aktionklassifikationsdatensätzen (UCF-101 und HMDB-51) hat es erschwert, gute Videoarchitekturen zu identifizieren, da die meisten Methoden ähnliche Leistungen auf den bestehenden kleineren Benchmarks erzielen. Diese Arbeit bewertet die neuesten Architekturen im Lichte des neuen Kinetics Human Action Video Datensatzes neu. Kinetics verfügt über zwei Größenordnungen mehr Daten, mit 400 Klassen menschlicher Aktionen und über 400 Clips pro Klasse, und wurde aus realistischen, anspruchsvollen YouTube-Videos gesammelt. Wir liefern eine Analyse darüber, wie sich aktuelle Architekturen bei der Aufgabe der Aktionklassifikation in diesem Datensatz schlagen und um wie viel sich die Leistung auf den kleineren Benchmark-Datensätzen verbessert, nachdem sie auf Kinetics vortrainiert wurden.Darüber hinaus stellen wir ein neues Two-Stream Inflated 3D ConvNet (I3D) vor, das auf der Expansion von 2D ConvNets basiert: Die Filter und Pooling-Kerne sehr tiefer Bildklassifikations-ConvNets werden in den dritten Raum-Zeit-Dimension erweitert, was es ermöglicht, nahtlose räumlich-zeitliche Merkmalsextraktoren aus Videos zu lernen, während gleichzeitig erfolgreiche ImageNet-Architekturdesigns und sogar deren Parameter genutzt werden können. Wir zeigen, dass I3D-Modelle nach dem Vortrainieren auf Kinetics erheblich die bisherige Spitzenleistung in der Aktionklassifikation verbessern, wobei sie eine Genauigkeit von 80,9 % auf HMDB-51 und 98,0 % auf UCF-101 erreichen.