HyperAIHyperAI
il y a 2 mois

Récupération de Vidéos Partiellement Pertinentes

Jianfeng Dong; Xianke Chen; Minsong Zhang; Xun Yang; Shujie Chen; Xirong Li; Xun Wang
Récupération de Vidéos Partiellement Pertinentes
Résumé

Les méthodes actuelles de recherche vidéo à partir du texte (Text-to-Video Retrieval, T2VR) sont formées et évaluées sur des ensembles de données orientés vers la légendage vidéo, tels que MSVD, MSR-VTT et VATEX. Une propriété clé de ces ensembles de données est que les vidéos sont supposées être préalablement coupées temporellement avec une durée courte, tandis que les légendes fournies décrivent bien l'essentiel du contenu vidéo. Par conséquent, pour une paire donnée de vidéo et de légende, la vidéo est censée être entièrement pertinente par rapport à la légende. En réalité, cependant, comme les requêtes ne sont pas connues a priori, les extraits vidéo préalablement coupés peuvent ne pas contenir un contenu suffisant pour répondre pleinement à la requête. Cela suggère un écart entre la littérature et le monde réel. Pour combler cet écart, nous proposons dans cet article une nouvelle sous-tâche de T2VR appelée Recherche Vidéo Partiellement Pertinente (Partially Relevant Video Retrieval, PRVR). Une vidéo non coupée est considérée comme partiellement pertinente par rapport à une requête textuelle donnée si elle contient un moment pertinent à cette requête. Le but du PRVR est de retrouver de telles vidéos partiellement pertinentes au sein d'une grande collection de vidéos non coupées. Le PRVR diffère de la recherche unique d'un moment dans une vidéo et de la recherche d'un moment dans un corpus vidéo, car ces deux dernières visent à retrouver des moments plutôt que des vidéos non coupées. Nous formulons le PRVR comme un problème d'apprentissage multi-instance (Multiple Instance Learning, MIL), où une vidéo est simultanément considérée comme un ensemble d'extraits vidéo et un ensemble de trames vidéo. Les extraits et les trames représentent le contenu vidéo à différentes échelles temporelles. Nous proposons un réseau d'Apprentissage Multi-Échelle des Similarités (Multi-Scale Similarity Learning Network, MS-SL) qui apprend conjointement les similarités à l'échelle des extraits et à l'échelle des trames pour le PRVR. Des expériences approfondies sur trois ensembles de données (TVR, ActivityNet Captions et Charades-STA) démontrent la viabilité de la méthode proposée. Nous montrons également que notre méthode peut être utilisée pour améliorer la recherche d'un moment dans un corpus vidéo.

Récupération de Vidéos Partiellement Pertinentes | Articles de recherche récents | HyperAI