HyperAIHyperAI

Command Palette

Search for a command to run...

W2VV++: Vollständig tiefe Lernverfahren für ad-hoc Video-Suche

Xirong Li; Chaoxi Xu; Gang Yang; Zhineng Chen; Jianfeng Dong

Zusammenfassung

Die ad-hoc-Videosuche (Ad-hoc Video Search, AVS) stellt eine wichtige, jedoch herausfordernde Aufgabe im Bereich der Multimedia-Abfrage dar. Im Gegensatz zu früheren konzeptbasierten Ansätzen schlagen wir eine end-to-end-Deep-Learning-Methode zur Lernung von Abfragerepräsentationen vor. Die vorgeschlagene Methode erfordert weder Konzeptmodellierung, noch Matching- oder Auswahlprozesse. Die Grundlage unserer Methode bildet das neu entwickelte W2VV++-Modell, eine verbesserte Variante des zuvor für die visuelle-zu-Text-Übereinstimmung entwickelten Word2VisualVec (W2VV)-Modells. W2VV++ wird durch eine verbesserte Satzcodierungsstrategie und eine verfeinerte Triplet-Ranking-Verlustfunktion gegenüber W2VV optimiert. Durch diese relativ einfachen Modifikationen erzielt W2VV++ eine erhebliche Leistungssteigerung. Wie unsere Teilnahme am TRECVID 2018 AVS-Wettbewerb sowie retrospektive Experimente an den TRECVID 2016- und 2017-Daten zeigen, übertrifft unser bestes Einzelmodell mit einer insgesamt inferierten Durchschnittsprecision (infAP) von 0,157 die bisherigen State-of-the-Art-Methoden. Durch Modellensamble mittels spätem Durchschnittsfusion lässt sich die Leistung weiter steigern und eine noch höhere infAP von 0,163 erreichen. Mit W2VV++ etablieren wir eine neue Basislinie für die ad-hoc-Videosuche.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp