RN-VID : Une architecture de fusion de caractéristiques pour la détection d'objets dans les vidéos

Les trames consécutives d'une vidéo sont fortement redondantes. Par conséquent, appliquer des détecteurs de trames individuelles à chaque trame sans réutiliser aucune information est une approche très coûteuse. C’est dans cette optique que nous proposons RN-VID (abréviation de RetinaNet-VIDeo), une nouvelle approche pour la détection d’objets dans les vidéos. Nos contributions sont de deux ordres. Premièrement, nous proposons une nouvelle architecture permettant d’exploiter l’information provenant des trames voisines afin d’améliorer les cartes de caractéristiques. Deuxièmement, nous introduisons un nouveau module permettant de fusionner des cartes de caractéristiques de même dimension par réorganisation des canaux et l’application de convolutions 1×1. Nous démontrons ensuite que RN-VID atteint un meilleur score de précision moyenne (mAP) par rapport aux détecteurs de trames individuelles, avec un coût supplémentaire négligeable lors de l’inférence.