HyperAIHyperAI
il y a 2 mois

Encodage Dual pour la Recherche Vidéo par Texte

Dong, Jianfeng ; Li, Xirong ; Xu, Chaoxi ; Yang, Xun ; Yang, Gang ; Wang, Xun ; Wang, Meng
Encodage Dual pour la Recherche Vidéo par Texte
Résumé

Ce papier aborde le problème difficile de la recherche vidéo par texte. Dans ce paradigme de recherche, un utilisateur final cherche des vidéos non étiquetées à l'aide de requêtes ad hoc décrites exclusivement sous forme de phrase en langage naturel, sans exemple visuel fourni. Étant donné que les vidéos sont des séquences d'images et les requêtes des séquences de mots, une correspondance efficace séquence-à-séquence entre les deux modalités est cruciale. Pour ce faire, les deux modalités doivent d'abord être encodées en vecteurs à valeurs réelles, puis projetées dans un espace commun. Dans cet article, nous réalisons cela en proposant un réseau d'encodage profond dual qui encode les vidéos et les requêtes en représentations denses puissantes propres à chacune. Notre contribution est double. Premièrement, contrairement aux travaux antérieurs qui recourent à un encodeur spécifique mono-niveau, le réseau proposé effectue un encodage multi-niveaux qui représente le contenu riche des deux modalités de manière progressive, du grossier au fin. Deuxièmement, contrairement aux algorithmes traditionnels d'apprentissage d'espace commun basés soit sur des concepts, soit sur un espace latent, nous introduisons l'apprentissage d'espace hybride (hybrid space learning) qui combine les hautes performances de l'espace latent et la bonne interprétabilité de l'espace conceptuel. L'encodage dual est conceptuellement simple, pratiquement efficace et entraîné de bout en bout avec l'apprentissage d'espace hybride. Des expériences approfondies sur quatre jeux de données vidéo difficiles montrent la viabilité de cette nouvelle méthode.

Encodage Dual pour la Recherche Vidéo par Texte | Articles de recherche récents | HyperAI