il y a 7 mois

Résumé

Ce travail vise à réaliser une segmentation au niveau des pixels des acteurs et de leurs actions dans le contenu vidéo. Contrairement aux travaux existants, qui apprennent tous à segmenter à partir d'un vocabulaire fixe de paires acteur-action, nous inférons la segmentation à partir d'une phrase en langage naturel. Cela permet de distinguer entre des acteurs finement granulaires appartenant à la même catégorie supérieure, d'identifier les instances d'acteurs et d'actions, ainsi que de segmenter des paires qui se trouvent en dehors du vocabulaire d'acteurs et d'actions. Nous proposons un modèle entièrement convolutif pour la segmentation au niveau des pixels des acteurs et des actions, utilisant une architecture encodeur-décodeur optimisée pour les vidéos. Pour démontrer le potentiel de la segmentation vidéo d'acteurs et d'actions à partir d'une phrase, nous avons étendu deux jeux de données populaires sur les acteurs et les actions avec plus de 7 500 descriptions en langage naturel. Les expériences montrent la qualité des segmentations guidées par les phrases, la capacité de généralisation de notre modèle, ainsi que son avantage pour la segmentation traditionnelle des acteurs et des actions par rapport à l'état de l'art.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Reconnaissance D'action

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Kirill Gavrilyuk Amir Ghodrati Zhenyang Li Cees G. M. Snoek

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Reconnaissance D'action

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Kirill Gavrilyuk Amir Ghodrati Zhenyang Li Cees G. M. Snoek

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Segmentation vidéo d'acteur et d'action à partir d'une phrase | Articles | HyperAI

Command Palette

Segmentation vidéo d'acteur et d'action à partir d'une phrase

Kirill Gavrilyuk Amir Ghodrati Zhenyang Li Cees G. M. Snoek

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Segmentation vidéo d'acteur et d'action à partir d'une phrase

Kirill Gavrilyuk Amir Ghodrati Zhenyang Li Cees G. M. Snoek

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Segmentation vidéo d'acteur et d'action à partir d'une phrase

Kirill Gavrilyuk Amir Ghodrati Zhenyang Li Cees G. M. Snoek

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters