HyperAIHyperAI
vor 2 Monaten

SlowFast-Netzwerke für die Videoerkennung

Christoph Feichtenhofer; Haoqi Fan; Jitendra Malik; Kaiming He
SlowFast-Netzwerke für die Videoerkennung
Abstract

Wir präsentieren SlowFast-Netzwerke für die Videoerkennung. Unser Modell umfasst (i) einen langsamen Pfad, der bei niedriger Framerate arbeitet, um räumliche Semantik zu erfassen, und (ii) einen schnellen Pfad, der bei hoher Framerate arbeitet, um Bewegungen in feiner zeitlicher Auflösung zu erfassen. Der schnelle Pfad kann durch Reduzierung seiner Kanalkapazität sehr leichtgewichtig gestaltet werden, kann jedoch nützliche zeitliche Informationen für die Videoerkennung lernen. Unsere Modelle erzielen starke Leistungen sowohl bei der Aktionklassifikation als auch bei der Erkennung von Aktionen in Videos, wobei große Verbesserungen auf unsere SlowFast-Konzeption zurückgeführt werden können. Wir berichten über den Stand der Technik in Bezug auf die Genauigkeit auf wichtigen Benchmarks für Videoerkennung wie Kinetics, Charades und AVA. Der Quellcode ist unter folgender URL verfügbar: https://github.com/facebookresearch/SlowFast