VVS: Video-to-Video Retrieval mit Unterdrückung irrelevanter Frames

Bei der inhaltsbasierten Videoretrieval (CBVR) sind Effizienz und Genauigkeit bei der Verarbeitung großer Videokollektionen ebenso wichtig; daher wurden zahlreiche Studien auf Basis von videolevel-Features aktiv durchgeführt. Dennoch sind diese Ansätze gegenüber frame-level-Feature-basierten Methoden aufgrund der erheblichen Schwierigkeit, ein langes und untrimmtes Video in einen einzigen Featurevektor zu kodieren, bisher unzureichend für eine präzise Retrieval-Leistung. In diesem Artikel zeigen wir, dass eine gezielte Unterdrückung irrelevanter Frames neue Einsichten in die aktuellen Herausforderungen videolevel-basierter Ansätze ermöglicht. Darüber hinaus stellen wir ein Video-to-Video-Suppression-Netzwerk (VVS) als Lösung vor. VVS ist ein end-to-end-Framework, das aus zwei Stufen besteht: einer einfachen Distractor-Eliminierungsstufe zur Identifikation der zu entfernenden Frames sowie einer Stufe zur Generierung von Unterdrückungsgewichten, um den Grad der Unterdrückung der verbleibenden Frames zu bestimmen. Diese Architektur ist darauf ausgelegt, ein untrimmtes Video mit variierendem Inhalt und bedeutungslosem Material effektiv zu beschreiben. Die Wirksamkeit des Ansatzes wird durch umfangreiche Experimente bestätigt, und wir zeigen, dass unsere Methode nicht nur den derzeitigen Stand der Technik bei videolevel-basierten Ansätzen erreicht, sondern zudem eine schnelle Inferenzzeit aufweist, während ihre Retrieval-Leistung nahe an der von frame-level-basierten Methoden liegt. Der Quellcode ist unter https://github.com/sejong-rcv/VVS verfügbar.