HyperAIHyperAI
il y a 2 mois

VideoGraph : Reconnaissance d'activités humaines de plusieurs minutes dans les vidéos

Hussein, Noureldien ; Gavves, Efstratios ; Smeulders, Arnold W. M.
VideoGraph : Reconnaissance d'activités humaines de plusieurs minutes dans les vidéos
Résumé

De nombreuses activités humaines se déroulent sur une période de plusieurs minutes. Pour les représenter, les travaux connexes optent souvent pour des méthodes de regroupement statistique, qui négligent la structure temporelle. D'autres choisissent des méthodes de convolution, telles que les CNN (Convolutional Neural Networks) et les méthodes Non-Local. Bien qu'elles soient efficaces pour apprendre des concepts temporels, elles peinent à modéliser des dépendances temporelles s'étendant sur plusieurs minutes. Nous proposons VideoGraph, une méthode visant à combiner le meilleur des deux mondes : représenter des activités humaines s'étendant sur plusieurs minutes et apprendre leur structure temporelle sous-jacente. VideoGraph apprend une représentation basée sur un graphe pour les activités humaines. Le graphe, ses nœuds et ses arêtes sont entièrement appris à partir de jeux de données vidéo, ce qui rend VideoGraph applicable à des problèmes sans annotation au niveau des nœuds. Les résultats montrent des améliorations par rapport aux travaux connexes sur les bancs d'essai suivants : Epic-Kitchen et Breakfast. De plus, nous démontrons que VideoGraph est capable d'apprendre la structure temporelle des activités humaines dans des vidéos s'étendant sur plusieurs minutes.

VideoGraph : Reconnaissance d'activités humaines de plusieurs minutes dans les vidéos | Articles de recherche récents | HyperAI