il y a 6 mois

Résumé

La segmentation d'objets vidéo guidée par une référence linguistique vise à segmenter et à suivre un objet cible dans une vidéo à l’aide d’un prompt en langage naturel. Les méthodes existantes fusionnent généralement les caractéristiques visuelles et textuelles de manière fortement imbriquée, traitant conjointement les informations multimodales afin de générer des masques par trame. Toutefois, cette approche peine souvent à identifier de manière précise l’objet cible, notamment dans des scènes comportant plusieurs objets similaires, et échoue à garantir une propagation cohérente des masques d’une trame à l’autre. Pour surmonter ces limitations, nous proposons FindTrack, un cadre novateur déconnecté qui sépare explicitement l’identification de l’objet de la propagation du masque. FindTrack sélectionne d’abord de manière adaptative une trame clé en équilibrant la confiance en la segmentation et l’alignement entre la vision et le texte, établissant ainsi une référence robuste pour l’objet cible. Cette référence est ensuite exploitée par un module dédié à la propagation afin de suivre et segmenter l’objet tout au long de la vidéo. En déconnectant ces deux processus, FindTrack réduit efficacement les ambiguïtés liées à l’association des objets et améliore la cohérence de la segmentation. Nous démontrons que FindTrack surpasser les méthodes existantes sur des benchmarks publics.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Suivi D'objets

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Cho Suhwan Lee Seunghoon Lee Minhyeok Lee Jungho Lee Sangyoun

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Suivi D'objets

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Cho Suhwan Lee Seunghoon Lee Minhyeok Lee Jungho Lee Sangyoun

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Trouver d’abord, suivre ensuite : Découpler l’identification et la propagation dans la segmentation d’objets vidéo par référence

Cho Suhwan Lee Seunghoon Lee Minhyeok Lee Jungho Lee Sangyoun

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Trouver d’abord, suivre ensuite : Découpler l’identification et la propagation dans la segmentation d’objets vidéo par référence

Cho Suhwan Lee Seunghoon Lee Minhyeok Lee Jungho Lee Sangyoun

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Trouver d’abord, suivre ensuite : Découpler l’identification et la propagation dans la segmentation d’objets vidéo par référence

Cho Suhwan Lee Seunghoon Lee Minhyeok Lee Jungho Lee Sangyoun

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters