HyperAIHyperAI
il y a un mois

Utiliser ce que vous avez : Recherche vidéo à l'aide de représentations issues d'experts collaboratifs

Yang Liu; Samuel Albanie; Arsha Nagrani; Andrew Zisserman
Utiliser ce que vous avez : Recherche vidéo à l'aide de représentations issues d'experts collaboratifs
Résumé

La croissance rapide des vidéos sur Internet a rendu la recherche de contenu vidéo à l'aide de requêtes en langage naturel un défi majeur. Les requêtes générées par les humains pour des ensembles de données vidéo « dans le monde réel » varient beaucoup en termes de degré de spécificité, certaines décrivant des détails précis tels que les noms d'identités célèbres, du contenu issu de discours ou du texte affiché à l'écran. Notre objectif est de condenser l'information multimodale et extrêmement multidimensionnelle provenant des vidéos en une seule représentation vidéo compacte pour la tâche de recherche vidéo à l'aide de requêtes textuelles libres, où le degré de spécificité est ouvert.Pour ce faire, nous exploitons les connaissances existantes sous forme d'embeddings sémantiques pré-entraînés qui incluent des caractéristiques « générales » telles que le mouvement, l'apparence et les caractéristiques scéniques issues du contenu visuel. Nous explorons également l'utilisation de signaux plus « spécifiques » issus de la reconnaissance automatique de la parole (ASR) et de la reconnaissance optique des caractères (OCR), qui sont disponibles sporadiquement pour les vidéos, et constatons que ces signaux restent difficiles à utiliser efficacement pour la recherche. Nous proposons un modèle d'experts collaboratifs pour agrégater les informations provenant de ces différents experts pré-entraînés et évaluons notre approche empiriquement sur cinq benchmarks de recherche : MSR-VTT, LSMDC, MSVD, DiDeMo et ActivityNet. Le code et les données peuvent être trouvés à l'adresse www.robots.ox.ac.uk/~vgg/research/collaborative-experts/. Ce document contient une correction des résultats rapportés dans la version précédente.