HyperAIHyperAI
il y a 18 jours

CTVIS : Entraînement cohérent pour la segmentation d'instances vidéo en ligne

Kaining Ying, Qing Zhong, Weian Mao, Zhenhua Wang, Hao Chen, Lin Yuanbo Wu, Yifan Liu, Chengxiang Fan, Yunzhi Zhuge, Chunhua Shen
CTVIS : Entraînement cohérent pour la segmentation d'instances vidéo en ligne
Résumé

La discrimination des embeddings d’instances joue un rôle fondamental dans l’association des instances au fil du temps pour la segmentation d’instances vidéo en ligne (VIS). L’apprentissage des embeddings d’instances est directement supervisé par une perte contrastive calculée à partir d’éléments contrastifs (CIs), qui sont des ensembles comprenant des embeddings d’ancrage, positifs et négatifs. Les méthodes récentes de VIS en ligne exploitent uniquement des CIs provenant d’un seul cadre de référence, ce que nous considérons comme insuffisant pour apprendre des embeddings fortement discriminants. Intuitivement, une stratégie possible pour améliorer les CIs consiste à répliquer la phase d’inférence durant l’entraînement. À cette fin, nous proposons une stratégie d’entraînement simple mais efficace, appelée Consistent Training for Online VIS (CTVIS), dont l’objectif est d’aligner les pipelines d’entraînement et d’inférence en ce qui concerne la construction des CIs. Plus précisément, CTVIS construit les CIs en s’appuyant sur l’embedding moyenné par momentum et sur les mécanismes de mémoire (memory bank), tout en ajoutant du bruit aux embeddings pertinents. Cette extension permet une comparaison fiable entre les embeddings des instances actuelles et les représentations stables des instances historiques, offrant ainsi un avantage significatif dans la modélisation de défis spécifiques à la VIS, tels que l’occlusion, la réidentification et la déformation. Expérimentalement, CTVIS dépasse les modèles les plus avancés (SOTA) de jusqu’à +5,0 points sur trois benchmarks de VIS, notamment YTVIS19 (55,1 % AP), YTVIS21 (50,1 % AP) et OVIS (35,5 % AP). En outre, nous constatons que des pseudo-videos générées à partir d’images peuvent entraîner des modèles robustes dépassant même ceux entraînés en mode entièrement supervisé.

CTVIS : Entraînement cohérent pour la segmentation d'instances vidéo en ligne | Articles de recherche récents | HyperAI