HyperAIHyperAI
il y a 2 mois

Apprentissage de la représentation du mouvement de bout en bout pour la compréhension vidéo

Lijie Fan; Wenbing Huang; Chuang Gan; Stefano Ermon; Boqing Gong; Junzhou Huang
Apprentissage de la représentation du mouvement de bout en bout pour la compréhension vidéo
Résumé

Malgré les récents succès des représentations apprises de bout en bout, les caractéristiques d'écoulement optique conçues manuellement sont encore largement utilisées dans les tâches d'analyse vidéo. Pour combler ce fossé, nous proposons TVNet, un réseau neuronal novateur et entièrement entraînable, capable d'apprendre des caractéristiques similaires à l'écoulement optique à partir des données. TVNet intègre un solveur d'écoulement optique spécifique, la méthode TV-L1, et est initialisé en déroulant ses itérations d'optimisation sous forme de couches neuronales. TVNet peut donc être utilisé directement sans nécessité d'un apprentissage supplémentaire. De plus, il peut être naturellement concaténé avec d'autres réseaux spécifiques à une tâche pour formuler une architecture de bout en bout, rendant ainsi notre méthode plus efficace que les approches multistades actuelles en évitant la pré-calcul et le stockage des caractéristiques sur disque. Enfin, les paramètres de TVNet peuvent être affinés par un entraînement de bout en bout. Cela permet à TVNet d'apprendre des motifs plus riches et spécifiques à la tâche au-delà du flux optique exact. Des expériences étendues sur deux benchmarks de reconnaissance d'action ont vérifié l'efficacité de l'approche proposée. Notre TVNet obtient de meilleures précisions que toutes les méthodes comparées, tout en étant compétitif avec le plus rapide de ses homologues en termes de temps d'extraction des caractéristiques.

Apprentissage de la représentation du mouvement de bout en bout pour la compréhension vidéo | Articles de recherche récents | HyperAI