il y a 6 mois

Résumé

Les méthodes populaires de segmentation d’objets vidéo non supervisées fusionnent les images RGB et les flux optiques à l’aide d’un réseau à deux voies. Toutefois, ces approches peinent à gérer les bruits perturbateurs présents dans chaque modalité d’entrée, lesquels peuvent fortement dégrader les performances du modèle. Nous proposons d’établir une correspondance entre les modalités d’entrée tout en supprimant les signaux parasites grâce à un alignement structurel optimal. Étant donné une trame vidéo, nous extrayons des caractéristiques locales denses à partir de l’image RGB et du flux optique, que nous considérons comme deux représentations structurées complexes. La distance de Wasserstein est ensuite utilisée pour calculer les flux optimaux globaux permettant de transporter les caractéristiques d’une modalité vers l’autre, la magnitude de chaque flux mesurant ainsi le degré d’alignement entre deux caractéristiques locales. Pour intégrer cet alignement structurel dans un réseau à deux voies afin d’assurer une formation end-to-end, nous factorisons la matrice de coût d’entrée en petits blocs spatiaux et concevons un module différentiable, appelé Sinkhorn à long et court rayon, composé d’une couche Sinkhorn à longue portée et d’une couche Sinkhorn à courte portée. Nous intégrons ce module dans un réseau à deux voies dédié, que nous nommons TransportNet. Nos expériences montrent que l’alignement entre mouvement et apparence permet d’atteindre les meilleurs résultats actuels sur les jeux de données populaires de segmentation d’objets vidéo.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension Vidéo

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Bo Liu Qingshan Liu Dong Liu Zicheng Zhao Kaihua Zhang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension Vidéo

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Bo Liu Qingshan Liu Dong Liu Zicheng Zhao Kaihua Zhang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Réseau de transport profond pour la segmentation d'objets vidéo non supervisée

Bo Liu Qingshan Liu Dong Liu Zicheng Zhao Kaihua Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réseau de transport profond pour la segmentation d'objets vidéo non supervisée

Bo Liu Qingshan Liu Dong Liu Zicheng Zhao Kaihua Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réseau de transport profond pour la segmentation d'objets vidéo non supervisée

Bo Liu Qingshan Liu Dong Liu Zicheng Zhao Kaihua Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters