Recyclage de représentation pour l'analyse vidéo en flux

Nous présentons StreamDEQ, une méthode visant à inférer des représentations par trame sur des vidéos tout en minimisant le calcul par trame. Les réseaux profonds conventionnels effectuent une extraction de caractéristiques depuis le début à chaque trame, en l’absence de solutions spécifiques. À la place, nous visons à concevoir des modèles de reconnaissance en flux (streaming) capables d’exploiter nativement la régularité temporelle entre trames consécutives. Nous observons que les modèles d’unités implicites récemment émergents offrent une base pratique pour construire de tels modèles, car ils définissent les représentations comme des points fixes de réseaux peu profonds, nécessitant une estimation par des méthodes itératives. Notre principal constat est de répartir les itérations d’inférence sur l’axe temporel en utilisant la représentation la plus récente comme point de départ à chaque trame. Ce schéma permet efficacement de réutiliser les calculs d’inférence récents et réduit considérablement le temps de traitement requis. Grâce à une analyse expérimentale approfondie, nous montrons que StreamDEQ est capable de retrouver des représentations quasi-optimales en quelques trames seulement, tout en maintenant une représentation à jour tout au long de la durée de la vidéo. Nos expériences sur la segmentation sémantique vidéo, la détection d’objets vidéo et l’estimation de posture humaine dans les vidéos montrent que StreamDEQ atteint une précision équivalente à celle du modèle de référence, tout en étant plus de 2 à 4 fois plus rapide.