Schwach überwachtes Lernen der Aktionsauswahl in Videos

Die Lokalisierung von Aktionen in Videos ist eine zentrale Aufgabe im Bereich des Computersehens. Das Problem der schwach überwachten zeitlichen Lokalisierung untersucht, ob diese Aufgabe ausreichend gut gelöst werden kann, wenn lediglich Video-Etiketten zur Verfügung stehen, wodurch die Menge an kostspieligen und fehleranfälligen Annotationen erheblich reduziert wird. Ein verbreiteter Ansatz besteht darin, einen Frame-ebenen Klassifikator zu trainieren, bei dem die Frames mit der höchsten Klassenwahrscheinlichkeit ausgewählt werden, um eine Video-Ebene-Vorhersage zu erzeugen. Anschließend werden die Frame-Aktivierungen zur Lokalisierung verwendet. Allerdings führt das Fehlen von Frame-Etiketten dazu, dass der Klassifikator auf jedem Frame eine Klassenverzerrung erzeugt. Um diesem Problem entgegenzuwirken, schlagen wir den Ansatz Action Selection Learning (ASL) vor, um das allgemeine Konzept einer Aktion – eine Eigenschaft, die wir als „Actionness“ bezeichnen – zu erfassen. Unter ASL wird das Modell mit einer neuartigen klassenunabhängigen Aufgabe trainiert, um vorherzusagen, welche Frames vom Klassifikator ausgewählt werden. Experimentell zeigen wir, dass ASL zwei etablierte Benchmarks, THUMOS-14 und ActivityNet-1.2, in Bezug auf die Leistung deutlich übertrifft, mit einer relativen Verbesserung von jeweils 10,3 % und 5,7 %. Wir analysieren zudem die Eigenschaften von ASL und belegen die Bedeutung der Actionness. Der vollständige Quellcode für diese Arbeit ist hier verfügbar: https://github.com/layer6ai-labs/ASL.