HyperAIHyperAI
il y a 18 jours

Vers des réseaux efficaces à deux niveaux pour la reconnaissance d’actions et de gestes

{Peng Dai, Juwei Lu, Wei Li, Niamul Quader}
Vers des réseaux efficaces à deux niveaux pour la reconnaissance d’actions et de gestes
Résumé

Les approches de pointe en reconnaissance d’actions et de gestes à partir de vidéos reposent souvent sur deux concepts clés : premièrement, elles utilisent un traitement multilignes ; deuxièmement, elles s’appuient sur un ensemble de réseaux de convolution. Nous améliorons et étendons ces deux aspects. Premièrement, nous obtenons systématiquement des champs réceptifs améliorés pour une extraction complémentaire de caractéristiques grâce à une décomposition progressive (de l’agréé au fin) des images d’entrée selon les dimensions spatiales et temporelles, et nous concentrons de manière adaptative l’apprentissage sur les voies de caractéristiques les plus pertinentes en utilisant une couche entièrement connectée réparamétrée. Deuxièmement, nous proposons un schéma « à utiliser quand nécessaire » basé sur une stratégie de sortie grossière (coarse-exit), qui permet d’utiliser de manière sélective, selon les données, les traitements coûteux à haute résolution, tout en préservant la précision et en réduisant le coût computationnel. Notre approche d’apprentissage C2F construit des réseaux en ensemble qui surpassent la plupart des méthodes concurrentes en termes de réduction du coût computationnel et d’amélioration de la précision sur les jeux de données Something-Something V1, V2 et Jester, tout en restant compétitifs sur le jeu de données Kinetics-400. De façon unique, nos réseaux en ensemble C2F peuvent fonctionner sous des contraintes variables de budget computationnel.