HyperAIHyperAI
il y a 18 jours

Réseau de méta-fusion adaptative guidée par la profondeur pour la reconnaissance vidéo à faible exemple

Yuqian Fu, Li Zhang, Junke Wang, Yanwei Fu, Yu-Gang Jiang
Réseau de méta-fusion adaptative guidée par la profondeur pour la reconnaissance vidéo à faible exemple
Résumé

Les êtres humains peuvent facilement reconnaître des actions à partir de très peu d'exemples, tandis que les modèles actuels de reconnaissance vidéo dépendent encore fortement de grandes quantités de données étiquetées. Cette observation a suscité un intérêt croissant pour la reconnaissance d'actions vidéo en peu d'exemples (few-shot), dont l'objectif est d'apprendre de nouvelles actions à partir d'un nombre très restreint d'exemples étiquetés. Dans cet article, nous proposons un réseau de fusion adaptatif guidé par la profondeur pour la reconnaissance vidéo en peu d'exemples, nommé AMeFu-Net. Plus précisément, nous abordons le problème de la reconnaissance en peu d'exemples sous trois angles : tout d'abord, nous atténuons ce problème extrême de rareté des données en introduisant l'information de profondeur comme support de scène, apportant ainsi des informations visuelles supplémentaires à notre modèle ; ensuite, nous fusionnons les représentations des clips RGB d'origine avec des clips de profondeur multiples, non strictement corrélés, échantillonnés grâce à un mécanisme d'augmentation temporelle désynchronisée, ce qui permet de synthétiser de nouvelles instances au niveau des caractéristiques ; enfin, nous proposons un nouveau module de fusion, le Normalisation d'Instance Adaptative guidée par la profondeur (DGAdaIN), permettant une fusion efficace entre les deux modalités. En outre, afin de mieux imiter le processus de reconnaissance en peu d'exemples, notre modèle est entraîné selon une approche d'apprentissage métacognitif (meta-learning). Des expériences étendues sur plusieurs benchmarks de reconnaissance d'actions démontrent l'efficacité de notre approche.

Réseau de méta-fusion adaptative guidée par la profondeur pour la reconnaissance vidéo à faible exemple | Articles de recherche récents | HyperAI