Grenzrauschenreduktion für die Lokalisierung von Videoaktivitäten

Die Video-Aktivitätslokalisation zielt darauf ab, den semantischen Inhalt in langen, ungeschnittenen Videos zu verstehen und Aktionen von Interesse zu extrahieren. Die extrahierte Aktion mit ihren Start- und Endpositionen kann für die Erstellung von Highlights, die zeitliche Aktionserkennung usw. verwendet werden. Leider ist das Lernen der genauen Grenzpositionen von Aktivitäten äußerst schwierig, da zeitliche Aktivitäten kontinuierlich sind und es oft keine klaren Übergänge zwischen Aktionen gibt. Darüber hinaus ist die Definition des Anfangs- und Endpunkts von Ereignissen subjektiv, was das Modell verwirren könnte. Um die Unsicherheit der Grenzen zu verringern, schlagen wir vor, das Problem der Video-Aktivitätslokalisation aus einer Denoising-Perspektive zu untersuchen. Insbesondere schlagen wir ein Encoder-Decoder-Modell namens DenoiseLoc vor. Während des Trainings wird eine Reihe von Aktionsspannen zufällig aus dem Ground Truth generiert, wobei eine kontrollierte Rauschskala angewendet wird. Dann versuchen wir diesen Prozess durch Grenzdenoising umzukehren, was es dem Lokalisierer ermöglicht, Aktivitäten mit präzisen Grenzen vorherzusagen und zu schneller Konvergenz führt. Experimente zeigen, dass DenoiseLoc in mehreren Video-Aktivitätsverstehensaufgaben Fortschritte macht. Zum Beispiel beobachten wir einen Anstieg um +12,36 % im durchschnittlichen mAP auf dem QV-Highlights-Datensatz und +1,64 % im [email protected] auf dem THUMOS'14-Datensatz gegenüber der Baseline. Darüber hinaus erreicht DenoiseLoc den aktuellen Stand der Technik auf den TACoS- und MAD-Datensätzen, aber mit deutlich weniger Vorhersagen im Vergleich zu anderen aktuellen Methoden.