il y a 2 mois

Échantillonnage de Cadres Basé sur l'Apprentissage par Renforcement Multi-Agents pour une Reconnaissance Efficace de Vidéos Non Taillées

Wenhao Wu; Dongliang He; Xiao Tan; Shifeng Chen; Shilei Wen

Résumé

La reconnaissance vidéo a suscité un grand intérêt de la part de la communauté scientifique et des progrès considérables ont été réalisés. Une stratégie d'échantillonnage de cadres appropriée peut améliorer la précision et l'efficacité de la reconnaissance. Cependant, les solutions principales utilisent généralement des stratégies d'échantillonnage de cadres conçues manuellement pour la reconnaissance. Cette approche peut dégrader les performances, en particulier dans les vidéos non coupées, en raison des variations de salience au niveau des cadres. Dans ce contexte, nous nous concentrons sur l'amélioration de la classification des vidéos non coupées en développant une stratégie d'échantillonnage de cadres basée sur l'apprentissage. Nous formulons intuitivement le processus d'échantillonnage de cadres comme plusieurs processus décisionnels markoviens parallèles, chacun visant à sélectionner un cadre/clip en ajustant progressivement un échantillonnage initial. Nous proposons ensuite de résoudre ces problèmes à l'aide d'un apprentissage par renforcement multi-agent (MARL). Notre cadre MARL est composé d'un réseau d'observation contextuel basé sur RNN novateur qui modélise conjointement les informations contextuelles entre les agents voisins et les états historiques d'un agent spécifique, d'un réseau de politique qui génère une distribution de probabilité sur un espace d'action prédéfini à chaque étape, et d'un réseau de classification pour le calcul des récompenses ainsi que pour la reconnaissance finale. Des résultats expérimentaux approfondis montrent que notre schéma basé sur MARL dépasse nettement les stratégies conçues manuellement avec diverses méthodes de base 2D et 3D. Notre modèle unique RGB atteint des performances comparables à celles du meilleur soumissionnaire ActivityNet v1.3 avec une fusion multi-modale multi-modèle et obtient de nouveaux résultats state-of-the-art sur YouTube Birds et YouTube Cars.