vor 2 Monaten

ViSiL: Feinabgestimmtes räumlich-zeitliches Videosimilaritätslernen

Giorgos Kordopatis-Zilos; Symeon Papadopoulos; Ioannis Patras; Ioannis Kompatsiaris

Abstract

In dieser Arbeit stellen wir ViSiL vor, eine Architektur für Videoähnlichkeitslernen, die feingranulare räumlich-zeitliche Beziehungen zwischen Videopärchen berücksichtigt – solche Beziehungen werden in früheren Ansätzen zur Videoabfrage oft verloren, bei denen das gesamte Bild oder sogar das gesamte Video in einen Vektordeskriptor eingebettet wird, bevor die Ähnlichkeitsberechnung durchgeführt wird. Im Gegensatz dazu wird unser auf einem konvolutionellen Neuronalen Netzwerk (CNN) basierender Ansatz trainiert, um die Video-zu-Video-Ähnlichkeit aus verfeinerten Frame-zu-Frame-Ähnlichkeitsmatrizen zu berechnen, wodurch sowohl innerhalb der Frames als auch zwischen den Frames Beziehungen berücksichtigt werden. In der vorgeschlagenen Methode wird die paarweise Frame-Ähnlichkeit durch Anwendung des Tensor-Dot-Produkts (TD) gefolgt von der Chamfer-Ähnlichkeit (CS) auf regionale CNN-Frame-Merkmale geschätzt – dies vermeidet eine Merkmalsaggregation vor der Ähnlichkeitsberechnung zwischen Frames. Anschließend wird die Ähnlichkeitsmatrix aller Videoframes einem vierstufigen CNN zugeführt und dann mit Hilfe der Chamfer-Ähnlichkeit (CS) in einen Video-zu-Video-Ähnlichkeitswert zusammengefasst – dies vermeidet eine Merkmalsaggregation vor der Ähnlichkeitsberechnung zwischen Videos und erfasst die zeitlichen Ähnlichkeitsmuster zwischen übereinstimmenden Framefolgen. Wir trainieren das vorgeschlagene Netzwerk unter Verwendung eines Triplettenverlustschemas und evaluieren es an fünf öffentlichen Benchmark-Datensätzen auf vier verschiedenen Videoabfrageproblemen, bei denen wir große Verbesserungen im Vergleich zum Stand der Technik zeigen. Die Implementierung von ViSiL ist öffentlich verfügbar.