HyperAIHyperAI

Command Palette

Search for a command to run...

Appariement vidéo-texte avec des embeddings conditionnés

Ameen Ali Idan Schwartz Tamir Hazan Lior Wolf

Résumé

Nous présentons une méthode permettant d’associer une phrase textuelle extraite d’un corpus donné à une séquence vidéo donnée, et réciproquement. Traditionnellement, le regroupement entre vidéos et textes repose sur l’apprentissage d’un espace d’encodage partagé, dans lequel l’encodage d’une modalité est indépendant de l’autre. Dans ce travail, nous encodons les données du jeu de données de manière à intégrer les informations pertinentes contenues dans la requête. La puissance de la méthode provient notamment du regroupement des interactions entre les mots et les images (frames). Étant donné que l’encodage d’une séquence vidéo dépend de la phrase à laquelle elle est comparée, la représentation doit être recalculée pour chaque correspondance potentielle. À cet effet, nous proposons un réseau neuronal léger, efficace. Son entraînement repose sur une perte hiérarchique de triplet, extensible à des tâches de correspondance paragraphe/vidéo. La méthode est simple, offrant une certaine explicabilité, et atteint des résultats de pointe pour les tâches de correspondance phrase-sequence vidéo et vidéo-texte, avec une marge significative sur cinq jeux de données différents : ActivityNet, DiDeMo, YouCook2, MSR-VTT et LSMDC. Nous montrons également que notre représentation conditionnée peut être transférée à la traduction automatique guidée par vidéo, où nous améliorons les résultats actuels sur le jeu de données VATEX. Le code source est disponible à l’adresse suivante : https://github.com/AmeenAli/VideoMatch.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp