LAMV: Lernen der Ausrichtung und Anpassung von Videos mit kerneffizienten zeitlichen Schichten
{Hervé Jégou Rita Cucchiara Matthijs Douze Lorenzo Baraldi}

Abstract
Diese Arbeit untersucht einen lernbaren Ansatz zum Vergleich und zur Ausrichtung von Videos. Unser Architekturansatz baut auf und revidiert zeitliche Match-Kerne innerhalb neuronalen Netzwerke auf: Wir schlagen eine neue zeitliche Schicht vor, die zeitliche Ausrichtungen findet, indem sie die Scores zwischen zwei Vektorsequenzen maximiert, gemäß einer zeitempfindlichen Ähnlichkeitsmetrik, die im Fourierraum parametrisiert ist. Diese Schicht wird mit einer zeitlichen Vorschlagsstrategie gelernt, bei der eine Dreier-Verlustfunktion minimiert wird, die sowohl die Lokalisationsgenauigkeit als auch die Erkennungsraten berücksichtigt. Wir evaluieren unseren Ansatz auf der Aufgabe der Videoausrichtung, der Kopiererkennung und der Ereignisretrieval. Unser Ansatz erreicht auf den Standarddatensätzen für zeitliche Videoausrichtung und Video-Kopiererkennung Ergebnisse, die die derzeitigen State-of-the-Art-Methoden übertreffen, unter vergleichbaren Bedingungen. Zudem erzielt er die bisher besten veröffentlichten Ergebnisse bei bestimmten Ereignissuchen, wobei die Videos präzise ausgerichtet werden.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| video-alignment-on-msu-video-alignment-and | TMK | Accuracy w/ 3 frames error (Hard): 0.0554 Accuracy w/ 3 frames error (Light): 0.0571 Accuracy w/ 3 frames error (Medium color): 0.0607 Accuracy w/ 3 frames error (Medium geometric): 0.0446 |
| video-retrieval-on-fivr-200k | LAMV | mAP (CSVR): 0.466 mAP (DSVR): 0.496 mAP (ISVR): 0.371 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.