Couche de Mélange Gaussien Temporelle pour Vidéos

Nous présentons une nouvelle couche de convolution nommée la couche Temporal Gaussian Mixture (TGM) et expliquons comment elle peut être utilisée pour capturer efficacement des informations temporelles à long terme dans des vidéos d'activités continues. La couche TGM est une couche de convolution temporelle régulée par un ensemble beaucoup plus restreint de paramètres (par exemple, l'emplacement/variance des Gaussiennes) qui sont entièrement différentiables. Nous exposons nos modèles vidéo entièrement convolutifs intégrant plusieurs couches TGM pour la détection d'activités. Les expériences approfondies menées sur plusieurs jeux de données, dont Charades et MultiTHUMOS, confirment l'efficacité des couches TGM, surpassant significativement les méthodes actuelles de pointe.