HyperAIHyperAI
il y a 17 jours

Réseau de requêtes de salience temporelle pour une reconnaissance vidéo efficace

Boyang Xia, Zhihao Wang, Wenhao Wu, Haoran Wang, Jungong Han
Réseau de requêtes de salience temporelle pour une reconnaissance vidéo efficace
Résumé

La reconnaissance vidéo efficace est un sujet de recherche actuellement très porteur, en raison de la croissance exponentielle des données multimédias sur Internet et les dispositifs mobiles. La plupart des méthodes existantes sélectionnent les trames les plus marquantes sans tenir compte des scores de salience spécifiques à chaque catégorie, ce qui fait abstraction de l’association implicite entre la salience d’une trame et sa catégorie d’appartenance. Pour atténuer ce problème, nous proposons un mécanisme novateur appelé Temporal Saliency Query (TSQ), qui intègre des informations spécifiques aux catégories afin de fournir des indices fins pour la mesure de la salience. Plus précisément, nous modélisons le processus de mesure de la salience spécifique à la catégorie comme une tâche de requête-réponse. Pour chaque catégorie, le motif commun associé est utilisé comme requête, et les trames les plus salientes sont identifiées comme réponse. Les similarités calculées entre les trames et la requête sont ensuite utilisées comme scores de salience des trames. Pour réaliser cette approche, nous proposons un réseau appelé Temporal Saliency Query Network (TSQNet), comprenant deux instanciations du mécanisme TSQ fondées respectivement sur les similarités visuelles d’apparence et sur les relations événement-objet textuelles. Une interaction inter-modale est ensuite introduite afin de favoriser l’échange d’informations entre ces deux modalités. Enfin, nous utilisons les scores de salience spécifiques aux catégories des catégories les plus fiables, générés par les deux modalités, pour sélectionner les trames les plus pertinentes. Des expériences étendues démontrent l’efficacité de notre méthode, qui atteint des résultats de pointe sur les jeux de données ActivityNet, FCVID et Mini-Kinetics. La page de projet est disponible à l’adresse suivante : https://lawrencexia2008.github.io/projects/tsqnet.

Réseau de requêtes de salience temporelle pour une reconnaissance vidéo efficace | Articles de recherche récents | HyperAI