il y a 6 mois

Résumé

L'estimation 3D de la posture humaine à partir de vidéos vise à localiser les coordonnées 3D des articulations humaines à partir de séquences vidéo. Les approches récentes basées sur les transformateurs se concentrent sur la capture des informations spatio-temporelles à partir de poses 2D séquentielles, mais ne parviennent pas à modéliser efficacement les caractéristiques de profondeur contextuelles, car les informations visuelles de profondeur sont perdues lors de l'étape d'estimation des poses 2D. Dans ce travail, nous simplifions ce paradigme en un cadre end-to-end, appelé Instance-guided Video Transformer (IVT), qui permet d'apprendre efficacement les informations de profondeur contextuelles spatio-temporelles à partir des caractéristiques visuelles et de prédire directement les poses 3D à partir des cadres vidéo. Plus précisément, nous formulons d'abord les cadres vidéo comme une série de tokens guidés par des instances, chaque token étant chargé de prédire la pose 3D d'une instance humaine. Ces tokens contiennent des informations sur la structure corporelle, car ils sont extraits sous la guidance des décalages des articulations par rapport au centre du corps. Ensuite, ces tokens sont envoyés dans IVT pour l'apprentissage des informations contextuelles spatio-temporelles de profondeur. Par ailleurs, nous proposons un mécanisme d'attention guidée par instance à plusieurs échelles afin de gérer les variations d'échelle entre plusieurs personnes. Enfin, les poses 3D de chaque personne sont décodées à partir des tokens guidés par instance par régression de coordonnées. Des expériences menées sur trois benchmarks largement utilisés pour l'estimation de poses 3D montrent que le modèle IVT atteint des performances de pointe.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Estimation De Profondeur

Traitement Vidéo

Approche/Framework

Vision Par Ordinateur

Tâche

Zhongwei Qiu Qiansheng Yang Jian Wang Dongmei Fu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Estimation De Profondeur

Traitement Vidéo

Approche/Framework

Vision Par Ordinateur

Tâche

Zhongwei Qiu Qiansheng Yang Jian Wang Dongmei Fu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

IVT : Un Transformateur Vidéo guidé par l'instance pour l'estimation de posture 3D en bout-en-bout

Zhongwei Qiu Qiansheng Yang Jian Wang Dongmei Fu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

IVT : Un Transformateur Vidéo guidé par l'instance pour l'estimation de posture 3D en bout-en-bout

Zhongwei Qiu Qiansheng Yang Jian Wang Dongmei Fu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

IVT : Un Transformateur Vidéo guidé par l'instance pour l'estimation de posture 3D en bout-en-bout

Zhongwei Qiu Qiansheng Yang Jian Wang Dongmei Fu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters