il y a 8 mois

Résumé

Les méthodes actuelles de segmentation par raisonnement vidéo reposent fortement sur un seul jeton spécial pour représenter l'objet dans le cadre clé ou la vidéo entière, ce qui ne capture pas adéquatement la complexité spatiale et le mouvement inter-cadres. Pour surmonter ces défis, nous proposons VRS-HQ, une approche de segmentation par raisonnement vidéo de bout en bout qui utilise des modèles linguistiques multimodaux à grande échelle (MLLM) pour injecter des caractéristiques spatio-temporelles riches dans les jetons hiérarchiques. Nos principales innovations incluent une Agrégation Dynamique Temporelle (TDA) et une Sélection de Cadre Clé guidée par les Jetons (TKS). Plus précisément, nous concevons des jetons au niveau des cadres et des jetons au niveau temporel qui utilisent l'apprentissage auto-régressif des MLLM pour capturer efficacement à la fois les informations locales et globales. Ensuite, nous appliquons une stratégie de fusion pondérée basée sur la similarité et de sélection de cadre, puis utilisons SAM2 pour effectuer la segmentation du cadre clé et sa propagation. Pour améliorer la précision de localisation du cadre clé, le TKS filtre les cadres clés en fonction des scores d'occlusion de SAM2 lors de l'inférence. VRS-HQ atteint des performances d'état de l'art sur ReVOS, dépassant VISA de 5,9%/12,5%/9,1% en scores J&F sur les trois sous-ensembles. Ces résultats soulignent les capacités robustes de raisonnement temporel et de segmentation de notre méthode. Le code source et les poids du modèle seront mis à disposition sur VRS-HQ.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Segmentation Sémantique

Multimodal

Traitement Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Sitong Gong; Yunzhi Zhuge; Lu Zhang; Zongxin Yang; Pingping Zhang; Huchuan Lu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Segmentation Sémantique

Multimodal

Traitement Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Sitong Gong; Yunzhi Zhuge; Lu Zhang; Zongxin Yang; Pingping Zhang; Huchuan Lu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Le Diable est dans le jeton temporel : Segmentation de raisonnement vidéo de haute qualité | Articles | HyperAI

Command Palette

Le Diable est dans le jeton temporel : Segmentation de raisonnement vidéo de haute qualité

Sitong Gong; Yunzhi Zhuge; Lu Zhang; Zongxin Yang; Pingping Zhang; Huchuan Lu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Le Diable est dans le jeton temporel : Segmentation de raisonnement vidéo de haute qualité

Sitong Gong; Yunzhi Zhuge; Lu Zhang; Zongxin Yang; Pingping Zhang; Huchuan Lu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Le Diable est dans le jeton temporel : Segmentation de raisonnement vidéo de haute qualité

Sitong Gong; Yunzhi Zhuge; Lu Zhang; Zongxin Yang; Pingping Zhang; Huchuan Lu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters