HyperAIHyperAI

Command Palette

Search for a command to run...

ViSiL: Feinabgestimmtes räumlich-zeitliches Videosimilaritätslernen

Giorgos Kordopatis-Zilos Symeon Papadopoulos Ioannis Patras Ioannis Kompatsiaris

Zusammenfassung

In dieser Arbeit stellen wir ViSiL vor, eine Architektur für Videoähnlichkeitslernen, die feingranulare räumlich-zeitliche Beziehungen zwischen Videopärchen berücksichtigt – solche Beziehungen werden in früheren Ansätzen zur Videoabfrage oft verloren, bei denen das gesamte Bild oder sogar das gesamte Video in einen Vektordeskriptor eingebettet wird, bevor die Ähnlichkeitsberechnung durchgeführt wird. Im Gegensatz dazu wird unser auf einem konvolutionellen Neuronalen Netzwerk (CNN) basierender Ansatz trainiert, um die Video-zu-Video-Ähnlichkeit aus verfeinerten Frame-zu-Frame-Ähnlichkeitsmatrizen zu berechnen, wodurch sowohl innerhalb der Frames als auch zwischen den Frames Beziehungen berücksichtigt werden. In der vorgeschlagenen Methode wird die paarweise Frame-Ähnlichkeit durch Anwendung des Tensor-Dot-Produkts (TD) gefolgt von der Chamfer-Ähnlichkeit (CS) auf regionale CNN-Frame-Merkmale geschätzt – dies vermeidet eine Merkmalsaggregation vor der Ähnlichkeitsberechnung zwischen Frames. Anschließend wird die Ähnlichkeitsmatrix aller Videoframes einem vierstufigen CNN zugeführt und dann mit Hilfe der Chamfer-Ähnlichkeit (CS) in einen Video-zu-Video-Ähnlichkeitswert zusammengefasst – dies vermeidet eine Merkmalsaggregation vor der Ähnlichkeitsberechnung zwischen Videos und erfasst die zeitlichen Ähnlichkeitsmuster zwischen übereinstimmenden Framefolgen. Wir trainieren das vorgeschlagene Netzwerk unter Verwendung eines Triplettenverlustschemas und evaluieren es an fünf öffentlichen Benchmark-Datensätzen auf vier verschiedenen Videoabfrageproblemen, bei denen wir große Verbesserungen im Vergleich zum Stand der Technik zeigen. Die Implementierung von ViSiL ist öffentlich verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ViSiL: Feinabgestimmtes räumlich-zeitliches Videosimilaritätslernen | Paper | HyperAI