vor 2 Monaten

SEA: Sentence Encoder Assembly für die Video-Retrieval durch textbasierte Abfragen

Li, Xirong ; Zhou, Fangming ; Xu, Chaoxi ; Ji, Jiaqi ; Yang, Gang

Abstract

Das Abrufen von nicht gekennzeichneten Videos durch textbasierte Abfragen, bekannt als Ad-hoc Video Search (AVS), ist ein zentrales Thema im Bereich der Multimediadatenverwaltung und -retrieval. Der Erfolg von AVS hängt maßgeblich von der cross-modalen Repräsentationslernen ab, die sowohl Abfragesätze als auch Videos in gemeinsame Räume kodiert, um semantische Ähnlichkeiten zu berechnen. Inspiriert durch den anfänglichen Erfolg früherer Arbeiten, die mehrere Satzencoder kombinierten, macht dieser Artikel einen Schritt weiter und entwickelt eine neue und allgemeine Methode zur effektiven Nutzung vielfältiger Satzencoder. Die Neuheit der vorgeschlagenen Methode, die wir als Sentence Encoder Assembly (SEA) bezeichnen, liegt in zwei Aspekten. Erstens unterscheidet sich SEA von bisherigen Ansätzen, die nur einen einzigen gemeinsamen Raum verwenden; SEA unterstützt Text-Video-Abgleich in mehreren encoder-spezifischen gemeinsamen Räumen. Diese Eigenschaft verhindert, dass der Abgleich von einem bestimmten Encoder dominiert wird, dessen Kodierungsvektor viel länger ist als die der anderen Encoder. Zweitens schlagen wir zum Ausnutzen der Komplementaritäten zwischen den einzelnen gemeinsamen Räumen das Multi-Space Multi-Loss Learning vor. Wie umfangreiche Experimente auf vier Benchmarks (MSR-VTT, TRECVID AVS 2016-2019, TGIF und MSVD) zeigen, übertrifft SEA den aktuellen Stand der Technik. Darüber hinaus ist SEA extrem einfach zu implementieren. All dies macht SEA zu einer attraktiven Lösung für AVS und bietet großes Potenzial für die kontinuierliche Weiterentwicklung des Aufgabengebiets durch den Einsatz neuer Satzencoder.