HyperAIHyperAI
il y a 2 mois

Réseaux de Convolution à Deux Flux pour la Reconnaissance d'Actions dans les Vidéos

Karen Simonyan; Andrew Zisserman
Réseaux de Convolution à Deux Flux pour la Reconnaissance d'Actions dans les Vidéos
Résumé

Nous étudions les architectures de réseaux de neurones convolutifs profonds (ConvNets) formés de manière discriminative pour la reconnaissance d'actions dans les vidéos. Le défi consiste à capturer l'information complémentaire sur l'apparence à partir des images fixes et le mouvement entre les images. Nous visons également à généraliser les meilleures caractéristiques conçues manuellement au sein d'un cadre d'apprentissage basé sur les données.Notre contribution est triple. Premièrement, nous proposons une architecture de ConvNet à deux flux qui intègre des réseaux spatiaux et temporels. Deuxièmement, nous montrons qu'un ConvNet formé sur un flux optique dense multi-images est capable d'atteindre de très bonnes performances malgré une quantité limitée de données d'entraînement. Enfin, nous démontrons que l'apprentissage multi-tâches, appliqué à deux ensembles de données différents pour la classification d'actions, peut être utilisé pour augmenter la quantité de données d'entraînement et améliorer les performances sur les deux ensembles.Notre architecture est formée et évaluée sur les benchmarks standard des actions vidéo UCF-101 et HMDB-51, où elle est compétitive avec l'état de l'art. Elle dépasse également largement les tentatives précédentes d'utilisation de réseaux profonds pour la classification vidéo.

Réseaux de Convolution à Deux Flux pour la Reconnaissance d'Actions dans les Vidéos | Articles de recherche récents | HyperAI