NSNet : échantillonneur de suppression de non-saliences pour une reconnaissance vidéo efficace

Il est difficile pour les systèmes d’intelligence artificielle d’atteindre une reconnaissance vidéo précise dans un contexte de coûts de calcul faibles. Les méthodes efficaces de reconnaissance vidéo basées sur une inférence adaptative prévisualisent généralement les vidéos et se concentrent sur les parties saillantes afin de réduire les coûts de calcul. La plupart des travaux existants se concentrent sur l’apprentissage de réseaux complexes à partir d’objectifs de classification vidéo. En considérant toutes les trames comme des exemples positifs, peu d’entre eux s’intéressent à la discrimination entre exemples positifs (trames saillantes) et exemples négatifs (trames non saillantes) dans les étiquettes d’entraînement. Pour combler cet écart, nous proposons dans cet article un nouveau réseau appelé Non-saliency Suppression Network (NSNet), qui supprime efficacement les réponses des trames non saillantes. Plus précisément, au niveau de la trame, des étiquettes pseudo efficaces, capables de distinguer les trames saillantes des non saillantes, sont générées afin de guider l’apprentissage de la saillance trame par trame. Au niveau de la vidéo, un module d’attention temporelle est appris sous deux supervisions vidéo, l’une portant sur les représentations saillantes et l’autre sur les représentations non saillantes. Les mesures de saillance issues des deux niveaux sont combinées pour exploiter de manière optimale les informations complémentaires à plusieurs granularités. Des expériences étendues menées sur quatre benchmarks bien connus montrent que notre NSNet atteint non seulement un compromis état-de-l’art entre précision et efficacité, mais présente également une vitesse d’inférence pratique significativement plus rapide (de 2,4 à 4,3 fois) par rapport aux méthodes les plus avancées. La page de projet est disponible à l’adresse suivante : https://lawrencexia2008.github.io/projects/nsnet.