HyperAIHyperAI

Command Palette

Search for a command to run...

LAMV: Lernen der Ausrichtung und Anpassung von Videos mit kerneffizienten zeitlichen Schichten

Hervé Jégou Rita Cucchiara Matthijs Douze Lorenzo Baraldi

Zusammenfassung

Diese Arbeit untersucht einen lernbaren Ansatz zum Vergleich und zur Ausrichtung von Videos. Unser Architekturansatz baut auf und revidiert zeitliche Match-Kerne innerhalb neuronalen Netzwerke auf: Wir schlagen eine neue zeitliche Schicht vor, die zeitliche Ausrichtungen findet, indem sie die Scores zwischen zwei Vektorsequenzen maximiert, gemäß einer zeitempfindlichen Ähnlichkeitsmetrik, die im Fourierraum parametrisiert ist. Diese Schicht wird mit einer zeitlichen Vorschlagsstrategie gelernt, bei der eine Dreier-Verlustfunktion minimiert wird, die sowohl die Lokalisationsgenauigkeit als auch die Erkennungsraten berücksichtigt. Wir evaluieren unseren Ansatz auf der Aufgabe der Videoausrichtung, der Kopiererkennung und der Ereignisretrieval. Unser Ansatz erreicht auf den Standarddatensätzen für zeitliche Videoausrichtung und Video-Kopiererkennung Ergebnisse, die die derzeitigen State-of-the-Art-Methoden übertreffen, unter vergleichbaren Bedingungen. Zudem erzielt er die bisher besten veröffentlichten Ergebnisse bei bestimmten Ereignissuchen, wobei die Videos präzise ausgerichtet werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp