HyperAIHyperAI

Command Palette

Search for a command to run...

Le Diable est dans le jeton temporel : Segmentation de raisonnement vidéo de haute qualité

Sitong Gong; Yunzhi Zhuge; Lu Zhang; Zongxin Yang; Pingping Zhang; Huchuan Lu

Résumé

Les méthodes actuelles de segmentation par raisonnement vidéo reposent fortement sur un seul jeton spécial pour représenter l'objet dans le cadre clé ou la vidéo entière, ce qui ne capture pas adéquatement la complexité spatiale et le mouvement inter-cadres. Pour surmonter ces défis, nous proposons VRS-HQ, une approche de segmentation par raisonnement vidéo de bout en bout qui utilise des modèles linguistiques multimodaux à grande échelle (MLLM) pour injecter des caractéristiques spatio-temporelles riches dans les jetons hiérarchiques. Nos principales innovations incluent une Agrégation Dynamique Temporelle (TDA) et une Sélection de Cadre Clé guidée par les Jetons (TKS). Plus précisément, nous concevons des jetons au niveau des cadres et des jetons au niveau temporel qui utilisent l'apprentissage auto-régressif des MLLM pour capturer efficacement à la fois les informations locales et globales. Ensuite, nous appliquons une stratégie de fusion pondérée basée sur la similarité et de sélection de cadre, puis utilisons SAM2 pour effectuer la segmentation du cadre clé et sa propagation. Pour améliorer la précision de localisation du cadre clé, le TKS filtre les cadres clés en fonction des scores d'occlusion de SAM2 lors de l'inférence. VRS-HQ atteint des performances d'état de l'art sur ReVOS, dépassant VISA de 5,9%/12,5%/9,1% en scores J&F sur les trois sous-ensembles. Ces résultats soulignent les capacités robustes de raisonnement temporel et de segmentation de notre méthode. Le code source et les poids du modèle seront mis à disposition sur VRS-HQ.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp