HyperAIHyperAI
vor 16 Tagen

LAMV: Lernen der Ausrichtung und Anpassung von Videos mit kerneffizienten zeitlichen Schichten

{Hervé Jégou, Rita Cucchiara, Matthijs Douze, Lorenzo Baraldi}
LAMV: Lernen der Ausrichtung und Anpassung von Videos mit kerneffizienten zeitlichen Schichten
Abstract

Diese Arbeit untersucht einen lernbaren Ansatz zum Vergleich und zur Ausrichtung von Videos. Unser Architekturansatz baut auf und revidiert zeitliche Match-Kerne innerhalb neuronalen Netzwerke auf: Wir schlagen eine neue zeitliche Schicht vor, die zeitliche Ausrichtungen findet, indem sie die Scores zwischen zwei Vektorsequenzen maximiert, gemäß einer zeitempfindlichen Ähnlichkeitsmetrik, die im Fourierraum parametrisiert ist. Diese Schicht wird mit einer zeitlichen Vorschlagsstrategie gelernt, bei der eine Dreier-Verlustfunktion minimiert wird, die sowohl die Lokalisationsgenauigkeit als auch die Erkennungsraten berücksichtigt. Wir evaluieren unseren Ansatz auf der Aufgabe der Videoausrichtung, der Kopiererkennung und der Ereignisretrieval. Unser Ansatz erreicht auf den Standarddatensätzen für zeitliche Videoausrichtung und Video-Kopiererkennung Ergebnisse, die die derzeitigen State-of-the-Art-Methoden übertreffen, unter vergleichbaren Bedingungen. Zudem erzielt er die bisher besten veröffentlichten Ergebnisse bei bestimmten Ereignissuchen, wobei die Videos präzise ausgerichtet werden.

LAMV: Lernen der Ausrichtung und Anpassung von Videos mit kerneffizienten zeitlichen Schichten | Neueste Forschungsarbeiten | HyperAI