Hintergrundunterdrückungsnetzwerk für die schwach überwachte zeitliche Aktionslokalisierung

Die schwach beschriftete zeitliche Aktionsslokalisierung ist ein äußerst herausforderndes Problem, da im Trainingsstadium keine frame-weisen Etiketten zur Verfügung stehen, sondern lediglich video-weise Labels: ob jedes Video Aktionframes von Interesse enthält. Bisherige Ansätze aggregieren frame-weise Klassenscores, um eine video-weise Vorhersage zu erzeugen, und lernen aus den video-weisen Aktionsetiketten. Diese Formulierung modelliert das Problem jedoch nicht vollständig, da Hintergrundframes gezwungen sind, fälschlicherweise als Aktionklassen klassifiziert zu werden, um die video-weise Vorhersage korrekt zu treffen. In diesem Paper stellen wir den Background Suppression Network (BaS-Net) vor, der eine zusätzliche Hintergrundklasse einführt und eine zweigeteilte, gewichtete Gemeinsamkeit (weight-sharing) Architektur mit einer asymmetrischen Trainingsstrategie verwendet. Dadurch kann BaS-Net Aktivierungen von Hintergrundframes unterdrücken und die Lokalisierungsgenauigkeit verbessern. Umfangreiche Experimente belegen die Wirksamkeit von BaS-Net und seine Überlegenheit gegenüber den aktuellen State-of-the-Art-Methoden auf den beliebtesten Benchmarks – THUMOS'14 und ActivityNet. Unser Code und das trainierte Modell sind unter https://github.com/Pilhyeon/BaSNet-pytorch verfügbar.