il y a 6 mois

Résumé

Dans cet article, nous étudions le problème de la segmentation d’objets vidéo à partir d’expressions de référence (VOSRE). Les méthodes conventionnelles effectuent généralement une fusion multi-modale basée sur des caractéristiques linguistiques et des caractéristiques visuelles extraites à partir de la couche supérieure du encodeur visuel, ce qui limite la capacité de ces modèles à représenter les entrées multi-modales à différents niveaux de granularité sémantique et spatiale. Pour résoudre ce problème, nous proposons un réseau hiérarchique d’interaction end-to-end (HINet) pour le problème de VOSRE. Notre modèle exploite la pyramide de caractéristiques produite par l’encodeur visuel afin de générer plusieurs niveaux de caractéristiques multi-modales. Cela permet une représentation plus flexible de divers concepts linguistiques (par exemple, attributs et catégories d’objets) à différents niveaux des caractéristiques multi-modales. En outre, nous extrayons des signaux d’objets en mouvement à partir d’un flux optique, et nous les utilisons comme indices complémentaires pour mettre en évidence l’objet référencé et supprimer le fond grâce à un mécanisme de portail de mouvement. Contrairement aux méthodes antérieures, cette stratégie permet à notre modèle de produire des prédictions en temps réel sans nécessiter l’entrée de toute la vidéo. Malgré sa simplicité, le HINet proposé dépasse l’état de l’art précédent sur les jeux de données DAVIS-16, DAVIS-17 et J-HMDB pour la tâche de VOSRE, démontrant ainsi son efficacité et sa généralité.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension Vidéo

Représentation Multimodale

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Philip Torr Hengshuang Zhao Luca Bertinetto Yansong Tang Zhao Yang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension Vidéo

Représentation Multimodale

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Philip Torr Hengshuang Zhao Luca Bertinetto Yansong Tang Zhao Yang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Réseau d'interaction hiérarchique pour la segmentation d'objets vidéo à partir d'expressions référentielles

Philip Torr Hengshuang Zhao Luca Bertinetto Yansong Tang Zhao Yang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réseau d'interaction hiérarchique pour la segmentation d'objets vidéo à partir d'expressions référentielles

Philip Torr Hengshuang Zhao Luca Bertinetto Yansong Tang Zhao Yang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réseau d'interaction hiérarchique pour la segmentation d'objets vidéo à partir d'expressions référentielles

Philip Torr Hengshuang Zhao Luca Bertinetto Yansong Tang Zhao Yang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters