HyperAIHyperAI

Command Palette

Search for a command to run...

Ajoutez simplement π\piπ ! Transformers Vidéo Induits par la Pose pour la Compréhension des Activités de la Vie Quotidienne

Dominick Reilly Srijan Das

Résumé

Les transformateurs vidéo sont devenus la norme de facto pour la reconnaissance des actions humaines, mais leur dépendance exclusive à l'égard de la modalité RGB limite encore leur adoption dans certains domaines. L'un de ces domaines est les Activités de la Vie Quotidienne (ADL), où le seul RGB n'est pas suffisant pour distinguer entre des actions visuellement similaires ou observées sous différents angles. Pour faciliter l'adoption des transformateurs vidéo dans les ADL, nous formulons l'hypothèse selon laquelle l'augmentation du RGB avec des informations sur la posture humaine, reconnue pour sa sensibilité aux mouvements fins et aux multiples points de vue, est essentielle. Par conséquent, nous présentons le premier Transformateur Vidéo Induit par la Posture : PI-ViT (ou π\piπ-ViT), une approche novatrice qui enrichit les représentations RGB apprises par les transformateurs vidéo avec des informations sur la posture en 2D et en 3D. Les éléments clés du π\piπ-ViT sont deux modules d'insertion, le Module d'Induction Squelettique 2D et le Module d'Induction Squelettique 3D, chargés d'introduire des informations sur la posture en 2D et en 3D dans les représentations RGB. Ces modules fonctionnent en effectuant des tâches auxiliaires sensibles à la posture, un choix de conception qui permet au π\piπ-ViT d'éliminer ces modules lors de l'inférence. Il convient de souligner que le π\piπ-ViT atteint des performances de pointe sur trois jeux de données ADL majeurs, couvrant à la fois des jeux de données réels et à grande échelle en RGB-D, sans nécessiter des postures ou une charge computationnelle supplémentaire lors de l'inférence.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp