Calibration des caractéristiques spatiales et fusion temporelle pour une segmentation d'instances vidéo à une étape efficace

Les réseaux modernes de segmentation d'instances vidéo à une étape souffrent de deux limitations principales. Premièrement, les caractéristiques convolutionnelles ne sont ni alignées avec les boîtes englobantes (anchor boxes) ni avec les boîtes englobantes de vérité terrain (ground-truth bounding boxes), ce qui réduit la sensibilité du masque à la localisation spatiale. Deuxièmement, une vidéo est directement divisée en cadres individuels pour la segmentation d'instances au niveau du cadre, ignorant ainsi la corrélation temporelle entre cadres adjacents. Pour surmonter ces problèmes, nous proposons un cadre simple mais efficace de segmentation d'instances vidéo à une étape basé sur une calibration spatiale et une fusion temporelle, nommé STMask. Afin d'assurer une calibration des caractéristiques spatiales par rapport aux boîtes englobantes de vérité terrain, nous prédisons tout d'abord des boîtes englobantes régressées autour des boîtes de vérité terrain, puis extrayons des caractéristiques à partir de ces boîtes pour la segmentation d'instances au niveau du cadre. Pour exploiter davantage la corrélation temporelle entre les cadres vidéo, nous intégrons un module de fusion temporelle permettant d'inférer les masques d'instances à partir de chaque cadre vers ses cadres adjacents, ce qui améliore la capacité de notre cadre à traiter des vidéos complexes telles que celles présentant un flou de mouvement, une occlusion partielle ou des poses inhabituelles objet-caméra. Les expériences sur l'ensemble de validation YouTube-VIS montrent que STMask, avec un squelette ResNet-50/-101, atteint un AP de masque de 33,5 % / 36,8 %, tout en maintenant une vitesse de 28,6 / 23,4 FPS pour la segmentation d'instances vidéo. Le code source est disponible en ligne à l'adresse suivante : https://github.com/MinghanLi/STMask.