Extraction de relations entre des affinités inter-cadres pour la segmentation sémantique vidéo

L'essence de la segmentation sémantique vidéo (VSS) réside dans la manière dont on exploite les informations temporelles pour effectuer des prédictions. Les travaux antérieurs se sont principalement concentrés sur le développement de nouvelles techniques permettant de calculer les affinités entre cadres, telles que le flux optique ou l'attention. À l'inverse, ce papier apporte une contribution à partir d'un angle différent, en exploitant les relations existant entre les affinités inter-cadres, ce qui permet une meilleure agrégation des informations temporelles. Nous explorons ces relations sous deux aspects : les corrélations intrinsèques à une seule échelle et les relations à plusieurs échelles. Inspirés par les méthodes classiques de traitement des caractéristiques, nous proposons deux approches : le raffinement d'affinité à une seule échelle (SAR) et l'agrégation d'affinités à plusieurs échelles (MAA). Pour rendre MAA réalisable, nous introduisons une stratégie de masquage sélectif des tokens (STM), permettant de sélectionner un sous-ensemble de tokens de référence cohérents pour différentes échelles lors du calcul des affinités, ce qui améliore également l'efficacité de notre méthode. Enfin, les affinités inter-cadres renforcées par SAR et MAA sont utilisées pour agréger de manière adaptative les informations temporelles. Nos expérimentations montrent que la méthode proposée se distingue favorablement par rapport aux états de l'art en matière de VSS. Le code est disponible publiquement à l'adresse suivante : https://github.com/GuoleiSun/VSS-MRCFA