HyperAIHyperAI
il y a 2 mois

Le Diable est dans le jeton temporel : Segmentation de raisonnement vidéo de haute qualité

Sitong Gong; Yunzhi Zhuge; Lu Zhang; Zongxin Yang; Pingping Zhang; Huchuan Lu
Le Diable est dans le jeton temporel : Segmentation de raisonnement vidéo de haute qualité
Résumé

Les méthodes actuelles de segmentation par raisonnement vidéo reposent fortement sur un seul jeton spécial pour représenter l'objet dans le cadre clé ou la vidéo entière, ce qui ne capture pas adéquatement la complexité spatiale et le mouvement inter-cadres. Pour surmonter ces défis, nous proposons VRS-HQ, une approche de segmentation par raisonnement vidéo de bout en bout qui utilise des modèles linguistiques multimodaux à grande échelle (MLLM) pour injecter des caractéristiques spatio-temporelles riches dans les jetons hiérarchiques. Nos principales innovations incluent une Agrégation Dynamique Temporelle (TDA) et une Sélection de Cadre Clé guidée par les Jetons (TKS). Plus précisément, nous concevons des jetons <SEG> au niveau des cadres et des jetons <TAK> au niveau temporel qui utilisent l'apprentissage auto-régressif des MLLM pour capturer efficacement à la fois les informations locales et globales. Ensuite, nous appliquons une stratégie de fusion pondérée basée sur la similarité et de sélection de cadre, puis utilisons SAM2 pour effectuer la segmentation du cadre clé et sa propagation. Pour améliorer la précision de localisation du cadre clé, le TKS filtre les cadres clés en fonction des scores d'occlusion de SAM2 lors de l'inférence. VRS-HQ atteint des performances d'état de l'art sur ReVOS, dépassant VISA de 5,9%/12,5%/9,1% en scores J&F sur les trois sous-ensembles. Ces résultats soulignent les capacités robustes de raisonnement temporel et de segmentation de notre méthode. Le code source et les poids du modèle seront mis à disposition sur VRS-HQ.

Le Diable est dans le jeton temporel : Segmentation de raisonnement vidéo de haute qualité | Articles de recherche récents | HyperAI