Bubblenet : une structure récurrente dispersée pour la reconnaissance d'activités
Cet article présente une approche pour la reconnaissance d’activités humaines dans les vidéos, basée sur l’utilisation d’un réseau récurrent profond prenant en entrée des informations d’apparence et de flux optique. Notre méthode propose une architecture novatrice appelée BubbleNET, fondée sur une couche récurrente répartie en plusieurs modules (désignés comme « bulles »), associée à un mécanisme d’attention basé sur la stratégie d’excitation et de compression (squeeze-and-excitation), chargé de moduler la contribution de chaque bulle. L’objectif est ainsi de capturer des informations provenant de segments fondamentalement corrélés des données d’entrée, afin de former une empreinte caractéristique composée de composants spécifiques à chaque activité. Nos expériences, menées sur des jeux de données largement utilisés pour la reconnaissance d’activités, confirment l’existence de ces empreintes, comme le montrent les cartes d’activation des bulles pour chaque classe des jeux de données. Pour comparer notre approche aux méthodes de l’état de l’art, nous avons considéré la précision moyenne, sur laquelle BubbleNET atteint respectivement 97,62 %, 91,70 % et 82,60 % sur les jeux de données UCF-101, YUP++ et HMDB-51, positionnant ainsi notre méthode parmi les meilleures approches actuelles.