il y a 8 mois

Résumé

Malgré les récentes avancées dans la segmentation d'image unifiée (IS), le développement d'un modèle de segmentation vidéo unifié (VS) reste un défi. Cela est principalement dû au fait que les tâches de VS génériques spécifiques à une catégorie doivent détecter tous les objets et les suivre à travers des images consécutives, tandis que les tâches de VS guidées par des instructions nécessitent de réidentifier la cible avec des indices visuels ou textuels tout au long de la vidéo, ce qui rend difficile la gestion de ces différentes tâches avec une même architecture. Nous tentons de résoudre ces problèmes et présentons une nouvelle architecture unifiée de VS, nommée UniVS, en utilisant des instructions comme requêtes. UniVS moyenne les caractéristiques du prompt cible des frames précédentes pour servir de requête initiale afin de décoder explicitement les masques, et introduit une couche d'attention croisée spécifique à la cible dans le décodeur de masque pour intégrer les caractéristiques du prompt dans le bassin mémoire. En prenant les masques prédits des entités des frames précédentes comme leurs prompts visuels, UniVS transforme différentes tâches de VS en segmentation ciblée guidée par des prompts, éliminant ainsi le processus heuristique d'appariement inter-frames. Notre cadre non seulement unifie les différentes tâches de VS mais assure également une formation et un test universels, garantissant une performance robuste dans divers scénarios. UniVS montre un équilibre remarquable entre performance et universalité sur 10 benchmarks exigeants en VS, couvrant les tâches de segmentation d'instances vidéo, sémantique, panoramique, d'objets et par référence. Le code peut être trouvé à l'adresse \url{https://github.com/MinghanLi/UniVS}.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Vision Par Ordinateur

Segmentation Sémantique

Video Captioning

Multimodal

Vision Par Ordinateur

Tâche

Minghan Li Shuai Li Xindong Zhang Lei Zhang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Vision Par Ordinateur

Segmentation Sémantique

Video Captioning

Multimodal

Vision Par Ordinateur

Tâche

Minghan Li Shuai Li Xindong Zhang Lei Zhang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

UniVS : Segmentation vidéo unifiée et universelle avec des prompts comme requêtes

Minghan Li Shuai Li Xindong Zhang Lei Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

UniVS : Segmentation vidéo unifiée et universelle avec des prompts comme requêtes

Minghan Li Shuai Li Xindong Zhang Lei Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

UniVS : Segmentation vidéo unifiée et universelle avec des prompts comme requêtes

Minghan Li Shuai Li Xindong Zhang Lei Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters