il y a 8 mois

Jianfeng Dong Xirong Li, Member, IEEE Chaoxi Xu Xun Yang Gang Yang Xun Wang, Member, IEEE Meng Wang, Fellow, IEEE

Résumé

Ce papier aborde le problème difficile de la recherche vidéo par texte. Dans ce paradigme de recherche, un utilisateur final cherche des vidéos non étiquetées à l'aide de requêtes ad hoc décrites exclusivement sous forme de phrase en langage naturel, sans exemple visuel fourni. Étant donné que les vidéos sont des séquences d'images et les requêtes des séquences de mots, une correspondance efficace séquence-à-séquence entre les deux modalités est cruciale. Pour ce faire, les deux modalités doivent d'abord être encodées en vecteurs à valeurs réelles, puis projetées dans un espace commun. Dans cet article, nous réalisons cela en proposant un réseau d'encodage profond dual qui encode les vidéos et les requêtes en représentations denses puissantes propres à chacune. Notre contribution est double. Premièrement, contrairement aux travaux antérieurs qui recourent à un encodeur spécifique mono-niveau, le réseau proposé effectue un encodage multi-niveaux qui représente le contenu riche des deux modalités de manière progressive, du grossier au fin. Deuxièmement, contrairement aux algorithmes traditionnels d'apprentissage d'espace commun basés soit sur des concepts, soit sur un espace latent, nous introduisons l'apprentissage d'espace hybride (hybrid space learning) qui combine les hautes performances de l'espace latent et la bonne interprétabilité de l'espace conceptuel. L'encodage dual est conceptuellement simple, pratiquement efficace et entraîné de bout en bout avec l'apprentissage d'espace hybride. Des expériences approfondies sur quatre jeux de données vidéo difficiles montrent la viabilité de cette nouvelle méthode.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Représentation Multimodale

Récupération De Documents Visuels

Multimodal

Tâche

Jianfeng Dong Xirong Li, Member, IEEE Chaoxi Xu Xun Yang Gang Yang Xun Wang, Member, IEEE Meng Wang, Fellow, IEEE

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Représentation Multimodale

Récupération De Documents Visuels

Multimodal

Tâche

Jianfeng Dong Xirong Li, Member, IEEE Chaoxi Xu Xun Yang Gang Yang Xun Wang, Member, IEEE Meng Wang, Fellow, IEEE

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Encodage Dual pour la Recherche Vidéo par Texte

Jianfeng Dong Xirong Li, Member, IEEE Chaoxi Xu Xun Yang Gang Yang Xun Wang, Member, IEEE Meng Wang, Fellow, IEEE

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Encodage Dual pour la Recherche Vidéo par Texte

Jianfeng Dong Xirong Li, Member, IEEE Chaoxi Xu Xun Yang Gang Yang Xun Wang, Member, IEEE Meng Wang, Fellow, IEEE

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Encodage Dual pour la Recherche Vidéo par Texte

Jianfeng Dong Xirong Li, Member, IEEE Chaoxi Xu Xun Yang Gang Yang Xun Wang, Member, IEEE Meng Wang, Fellow, IEEE

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters