Temporale Gaußsche Mischungsschicht für Videos

Wir stellen eine neue Faltungsschicht vor, die temporale Gaußsche Mischung (TGM) Schicht genannt wird, und erläutern, wie sie verwendet werden kann, um langfristige zeitliche Informationen in kontinuierlichen Aktivitätsvideos effizient zu erfassen. Die TGM-Schicht ist eine zeitliche Faltungsschicht, die durch eine viel kleinere Anzahl von Parametern gesteuert wird (z.B. Lage/Varianz der Gaußschen Verteilungen), die vollständig differenzierbar sind. Wir präsentieren unsere voll konvolutionellen Videomodelle mit mehreren TGM-Schichten für die Aktivitätsdetektion. Umfangreiche Experimente auf mehreren Datensätzen, darunter Charades und MultiTHUMOS, bestätigen die Effektivität der TGM-Schichten, die den aktuellen Stand der Technik deutlich übertreffen.