il y a 6 mois

Résumé

La segmentation d'acteurs et d'actions dans les vidéos à l'aide de requêtes linguistiques vise à identifier les objets mentionnés dans les descriptions linguistiques au sein d'une séquence vidéo. Ce processus nécessite une raisonnement linguistique approfondi ainsi qu'une compréhension fine des contenus vidéo. Les méthodes précédentes s'appuient principalement sur des réseaux convolutionnels dynamiques pour aligner les représentations visuelles et sémantiques. Toutefois, les réseaux convolutionnels dynamiques négligent souvent le contexte spatial lors du traitement de chaque région d'une image, ce qui rend difficile la segmentation d'objets similaires dans des scénarios complexes. Pour surmonter cette limitation, nous proposons un réseau convolutionnel dynamique modulé par le contexte. Plus précisément, dans notre cadre, nous introduisons une opération de convolution dynamique modulée par le contexte : les noyaux de convolution pour une région donnée sont générés à partir à la fois des phrases linguistiques et des caractéristiques contextuelles environnantes. Par ailleurs, nous avons conçu un encodeur temporel afin d'intégrer les informations de mouvement aux caractéristiques visuelles, améliorant ainsi l'alignement avec les descriptions de requête. Des expériences étendues sur deux jeux de données de référence, l’Actor-Action Dataset Sentences (A2D Sentences) et J-HMDB Sentences, montrent que notre approche dépasse significativement les méthodes de pointe actuelles.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension Vidéo

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Yi Yang Fan Ma Cheng Deng Hao Wang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension Vidéo

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Yi Yang Fan Ma Cheng Deng Hao Wang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Réseaux dynamiques modulés par le contexte pour la segmentation d'acteurs et d'actions dans les vidéos avec des requêtes linguistiques

Yi Yang Fan Ma Cheng Deng Hao Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réseaux dynamiques modulés par le contexte pour la segmentation d'acteurs et d'actions dans les vidéos avec des requêtes linguistiques

Yi Yang Fan Ma Cheng Deng Hao Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réseaux dynamiques modulés par le contexte pour la segmentation d'acteurs et d'actions dans les vidéos avec des requêtes linguistiques

Yi Yang Fan Ma Cheng Deng Hao Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters