HyperAIHyperAI

Command Palette

Search for a command to run...

Expression Prompt Collaboration Transformer pour la segmentation d'objets vidéo par référence universelle

Jiajun Chen Jiacheng Lin Guojin Zhong Haolong Fu Ke Nai Kailun Yang Zhiyong Li

Résumé

La segmentation d’objets vidéo guidée par l’audio (A-VOS) et la segmentation d’objets vidéo référentielle (R-VOS) sont deux tâches étroitement liées, visant toutes deux à segmenter des objets spécifiques à partir de séquences vidéo en réponse à des promts expressifs. Toutefois, en raison des défis liés à la modélisation des représentations pour différentes modalités, les méthodes existantes peinent à trouver un équilibre entre la flexibilité d’interaction et la précision de localisation. Dans ce travail, nous abordons ce problème sous deux angles : l’alignement entre l’audio et le texte, ainsi que l’interaction approfondie entre les modalités audio, texte et visuelle. Tout d’abord, nous proposons une architecture universelle, appelée Expression Prompt Collaboration Transformer (EPCFormer). Ensuite, nous introduisons un mécanisme d’alignement d’expression (EA) entre l’audio et le texte. L’EPCFormer exploite le fait que les promts audio et textuels faisant référence au même objet sont sémantiquement équivalents, en utilisant un apprentissage contrastif pour les deux types d’expressions. Par la suite, afin de favoriser des interactions profondes entre les modalités audio, texte et visuelle, nous proposons un module d’attention Expression-Visual (EVA). Grâce à une exploration approfondie des indices complémentaires entre le texte et l’audio, les connaissances acquises dans la segmentation d’objets vidéo à partir de promts expressifs peuvent être transférées de manière fluide entre les deux tâches. Des expériences menées sur des benchmarks reconnus démontrent que notre EPCFormer atteint des résultats de pointe sur les deux tâches. Le code source sera rendu publiquement disponible à l’adresse suivante : https://github.com/lab206/EPCFormer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp