HyperAIHyperAI

Command Palette

Search for a command to run...

Grenzrauschenreduktion für die Lokalisierung von Videoaktivitäten

Mengmeng Xu Mattia Soldan Jialin Gao Shuming Liu Juan-Manuel Pérez-Rúa Bernard Ghanem

Zusammenfassung

Die Video-Aktivitätslokalisation zielt darauf ab, den semantischen Inhalt in langen, ungeschnittenen Videos zu verstehen und Aktionen von Interesse zu extrahieren. Die extrahierte Aktion mit ihren Start- und Endpositionen kann für die Erstellung von Highlights, die zeitliche Aktionserkennung usw. verwendet werden. Leider ist das Lernen der genauen Grenzpositionen von Aktivitäten äußerst schwierig, da zeitliche Aktivitäten kontinuierlich sind und es oft keine klaren Übergänge zwischen Aktionen gibt. Darüber hinaus ist die Definition des Anfangs- und Endpunkts von Ereignissen subjektiv, was das Modell verwirren könnte. Um die Unsicherheit der Grenzen zu verringern, schlagen wir vor, das Problem der Video-Aktivitätslokalisation aus einer Denoising-Perspektive zu untersuchen. Insbesondere schlagen wir ein Encoder-Decoder-Modell namens DenoiseLoc vor. Während des Trainings wird eine Reihe von Aktionsspannen zufällig aus dem Ground Truth generiert, wobei eine kontrollierte Rauschskala angewendet wird. Dann versuchen wir diesen Prozess durch Grenzdenoising umzukehren, was es dem Lokalisierer ermöglicht, Aktivitäten mit präzisen Grenzen vorherzusagen und zu schneller Konvergenz führt. Experimente zeigen, dass DenoiseLoc in mehreren Video-Aktivitätsverstehensaufgaben Fortschritte macht. Zum Beispiel beobachten wir einen Anstieg um +12,36 % im durchschnittlichen mAP auf dem QV-Highlights-Datensatz und +1,64 % im [email protected] auf dem THUMOS'14-Datensatz gegenüber der Baseline. Darüber hinaus erreicht DenoiseLoc den aktuellen Stand der Technik auf den TACoS- und MAD-Datensätzen, aber mit deutlich weniger Vorhersagen im Vergleich zu anderen aktuellen Methoden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Grenzrauschenreduktion für die Lokalisierung von Videoaktivitäten | Paper | HyperAI