HyperAIHyperAI
il y a 18 jours

Reconnaissance d'actions à vue multiple utilisant l'apprentissage contrastif

{Rama Chellappa, Celso M. de Melo, Chun Pong Lau, Anshul Shah, Ketul Shah}
Reconnaissance d'actions à vue multiple utilisant l'apprentissage contrastif
Résumé

Dans ce travail, nous proposons une méthode de reconnaissance d’actions basée sur des vidéos en RGB utilisant des données multi-vues. Nous introduisons un cadre d’apprentissage contrastif supervisé permettant d’apprendre une représentation en caractéristiques robuste aux variations de point de vue, en exploitant efficacement les données multi-vues. Nous utilisons une perte contrastive supervisée améliorée et enrichis les exemples positifs avec ceux provenant de points de vue synchronisés. Nous proposons également une nouvelle approche pour utiliser les probabilités du classificateur afin guider la sélection des négatifs difficiles dans la perte contrastive, afin d’obtenir une représentation plus discriminante. Les échantillons négatifs provenant de classes ambiguës, selon les probabilités a posteriori, sont pondérés de manière plus élevée. Nous montrons également que notre méthode permet une meilleure généralisation aux domaines par rapport à l’apprentissage supervisé standard basé sur des données synthétiques multi-vues. Des expériences étendues sur des données réelles (NTU-60, NTU-120, NUMA) et synthétiques (RoCoG) démontrent l’efficacité de notre approche.