HyperAIHyperAI
vor 11 Tagen

W2VV++: Vollständig tiefe Lernverfahren für ad-hoc Video-Suche

{Xirong Li; Chaoxi Xu; Gang Yang; Zhineng Chen; Jianfeng Dong}
Abstract

Die ad-hoc-Videosuche (Ad-hoc Video Search, AVS) stellt eine wichtige, jedoch herausfordernde Aufgabe im Bereich der Multimedia-Abfrage dar. Im Gegensatz zu früheren konzeptbasierten Ansätzen schlagen wir eine end-to-end-Deep-Learning-Methode zur Lernung von Abfragerepräsentationen vor. Die vorgeschlagene Methode erfordert weder Konzeptmodellierung, noch Matching- oder Auswahlprozesse. Die Grundlage unserer Methode bildet das neu entwickelte W2VV++-Modell, eine verbesserte Variante des zuvor für die visuelle-zu-Text-Übereinstimmung entwickelten Word2VisualVec (W2VV)-Modells. W2VV++ wird durch eine verbesserte Satzcodierungsstrategie und eine verfeinerte Triplet-Ranking-Verlustfunktion gegenüber W2VV optimiert. Durch diese relativ einfachen Modifikationen erzielt W2VV++ eine erhebliche Leistungssteigerung. Wie unsere Teilnahme am TRECVID 2018 AVS-Wettbewerb sowie retrospektive Experimente an den TRECVID 2016- und 2017-Daten zeigen, übertrifft unser bestes Einzelmodell mit einer insgesamt inferierten Durchschnittsprecision (infAP) von 0,157 die bisherigen State-of-the-Art-Methoden. Durch Modellensamble mittels spätem Durchschnittsfusion lässt sich die Leistung weiter steigern und eine noch höhere infAP von 0,163 erreichen. Mit W2VV++ etablieren wir eine neue Basislinie für die ad-hoc-Videosuche.

W2VV++: Vollständig tiefe Lernverfahren für ad-hoc Video-Suche | Neueste Forschungsarbeiten | HyperAI