HyperAIHyperAI
vor 2 Monaten

Partiell Relevante Video-Retrieval

Jianfeng Dong; Xianke Chen; Minsong Zhang; Xun Yang; Shujie Chen; Xirong Li; Xun Wang
Partiell Relevante Video-Retrieval
Abstract

Aktuelle Methoden für die Text-zu-Video-Retrieval (T2VR) werden auf Video-Untertitel-Datensätzen wie MSVD, MSR-VTT und VATEX trainiert und getestet. Eine wesentliche Eigenschaft dieser Datensätze ist, dass die Videos als zeitlich vorab geschnitten mit kurzer Dauer angenommen werden, während die bereitgestellten Untertitel den Kern der Videoinhalte gut beschreiben. Folglich wird für ein gegebenes Video-Untertitel-Paar angenommen, dass das Video vollständig dem Untertitel entspricht. In der Realität jedoch sind die Abfragen vorher nicht bekannt, sodass vorab geschnittene Videoclips möglicherweise nicht genügend Inhalte enthalten, um eine Abfrage vollständig zu erfüllen. Dies deutet auf einen Unterschied zwischen der Literatur und der realen Welt hin. Um diese Lücke zu schließen, schlagen wir in diesem Artikel eine neue T2VR-Teilaufgabe vor, die als Partially Relevant Video Retrieval (PRVR) bezeichnet wird. Ein ungeschnittenes Video gilt als teilweise relevant im Bezug auf eine gegebene textbasierte Abfrage, wenn es einen Moment enthält, der zur Abfrage relevant ist. PRVR zielt darauf ab, solche teilweise relevanten Videos aus einer großen Sammlung von ungeschnittenen Videos zu retrienven. PRVR unterscheidet sich von der Retrievale einzelner Videomomente und der Retrievale von Videomomenten in einem Korpus, da letztere zwei Momente anstelle von ungeschnittenen Videos retrienven sollen. Wir formulieren PRVR als ein Problem des Multiple Instance Learnings (MIL), bei dem ein Video gleichzeitig als eine Sammlung von Videoclips und eine Sammlung von Videoframes betrachtet wird. Clips und Frames repräsentieren den Videoinhalt auf verschiedenen Zeitskalen. Wir schlagen ein Multi-Scale Similarity Learning (MS-SL)-Netzwerk vor, das sowohl Clip-skalierte als auch Frame-skalierte Ähnlichkeiten für PRVR gemeinsam lernt. Ausführliche Experimente auf drei Datensätzen (TVR, ActivityNet Captions und Charades-STA) zeigen die Machbarkeit der vorgeschlagenen Methode. Wir demonstrieren außerdem, dass unsere Methode zur Verbesserung der Retrievale von Videomomenten in einem Korpus verwendet werden kann.