HyperAIHyperAI
il y a 3 mois

Correspondance bijective au niveau des pixels pour la segmentation d'objets vidéo

Suhwan Cho, Heansung Lee, Minjung Kim, Sungjun Jang, Sangyoun Lee
Correspondance bijective au niveau des pixels pour la segmentation d'objets vidéo
Résumé

La segmentation d'objets vidéo semi-supervisée (VOS) vise à suivre les objets spécifiés présents dans la première trame d'une vidéo au niveau pixel. Afin d'exploiter pleinement les informations d'apparence d'un objet, le recouvrement de caractéristiques au niveau pixel est largement utilisé en VOS. La méthode classique de recouvrement fonctionne de manière surjective, c’est-à-dire qu’elle ne considère que les meilleurs correspondants allant de la trame de requête vers la trame de référence. Chaque position dans la trame de requête est associée à la position optimale dans la trame de référence, indépendamment de la fréquence à laquelle chaque position de la trame de référence est référencée. Cette approche fonctionne bien dans la plupart des cas et présente une robustesse face aux variations rapides d'apparence, mais peut entraîner des erreurs critiques lorsque la trame de requête contient des éléments de fond similaires à l'objet cible. Pour atténuer ce problème, nous introduisons un mécanisme de recouvrement bijectif, qui cherche les meilleurs correspondants à la fois de la trame de requête vers la trame de référence et inversement. Avant d’établir les meilleurs correspondants pour les pixels de la trame de requête, nous prenons d’abord en compte les correspondants optimaux pour les pixels de la trame de référence, afin d’éviter qu’un même pixel de la trame de référence ne soit trop souvent référencé. Étant donné que ce mécanisme fonctionne de manière stricte — les pixels ne sont connectés que s’ils sont des correspondants certains l’un pour l’autre — il permet efficacement d’éliminer les éléments de fond perturbateurs. En outre, nous proposons un module d’encodage de masques pour améliorer la méthode existante de propagation de masques. En intégrant plusieurs masques historiques accompagnés d’informations de coordonnées, ce module permet de capturer efficacement l’information de position de l’objet cible.