Der Teufel steckt im zeitlichen Token: Hochwertige Video-Segmentierung durch logisches Zerlegen

Bestehende Methoden für die Video-Reasoning-Segmentierung basieren stark auf einem einzelnen speziellen Token, um das Objekt im Schlüsselbild oder im gesamten Video darzustellen. Dies führt dazu, dass räumliche Komplexität und Bewegung zwischen den Bildern unzureichend erfasst werden. Um diese Herausforderungen zu bewältigen, schlagen wir VRS-HQ vor, einen end-to-end Ansatz zur Video-Reasoning-Segmentierung, der Multimodale Large Language Models (MLLMs) nutzt, um reichhaltige räumlich-zeitliche Merkmale in hierarchische Tokens zu integrieren. Unsere wesentlichen Innovationen sind eine zeitdynamische Aggregation (Temporal Dynamic Aggregation, TDA) und eine tokengetriebene Schlüsselbildauswahl (Token-driven Keyframe Selection, TKS). Insbesondere entwickeln wir framebasierte <SEG>-Tokens und zeitbasierte <TAK>-Tokens, die das autoregressive Lernen von MLLMs nutzen, um sowohl lokale als auch globale Informationen effektiv zu erfassen. Anschließend wenden wir eine similaritätsbasierte gewichtete Fusion und eine framebasierte Auswahlstrategie an und nutzen SAM2 zur Schlüsselbildsegmentierung und -verbreitung. Um die Genauigkeit der Schlüsselbildlokalisation zu verbessern, filtert die TKS während der Inferenz Schlüsselbilder auf Grundlage der Okklusionswerte von SAM2. VRS-HQ erreicht Stand-des-Dingen-leistungen auf ReVOS und übertrifft VISA um 5,9%/12,5%/9,1% in den J&F-Werten über die drei Teilmengen hinweg. Diese Ergebnisse unterstreichen die starken zeitlichen Schließungs- und Segmentierungsfähigkeiten unserer Methode. Der Code und die Modellgewichte werden bei VRS-HQ veröffentlicht werden.