Schwach beschriftete zeitliche Aktionslokalisierung durch Unsicherheitsmodellierung

Die schwach beschriftete zeitliche Aktionslokalisierung zielt darauf ab, zeitliche Intervalle von Aktionsklassen zu erkennen, wobei lediglich videoebene Labels zur Verfügung stehen. Hierbei ist es entscheidend, Frames von Aktionsklassen von Hintergrundframes (d. h. Frames, die keiner Aktionsklasse zugeordnet sind) zu trennen. In diesem Artikel präsentieren wir eine neue Perspektive auf Hintergrundframes, indem wir diese als außerhalb der Verteilung liegende (out-of-distribution) Proben modellieren, basierend auf ihrer Inkonsistenz. Hintergrundframes können dann erkannt werden, indem die Wahrscheinlichkeit für jedes Frame, außerhalb der Verteilung zu liegen – also dessen Unsicherheit – geschätzt wird. Es ist jedoch nicht möglich, Unsicherheit direkt ohne frameebene Labels zu lernen. Um die Unsicherheitslernung im schwach beschrifteten Setting zu ermöglichen, nutzen wir die Formulierung des Multiple Instance Learning. Darüber hinaus führen wir eine Hintergrund-Entropie-Verlustfunktion ein, um Hintergrundframes besser zu differenzieren, indem wir die Verteilung der innerhalb der Verteilung liegenden (Aktions-)Wahrscheinlichkeiten über alle Aktionsklassen gleichmäßig anstreben. Experimentelle Ergebnisse zeigen, dass unsere Unsicherheitsmodellierung effektiv ist, um die Störwirkung von Hintergrundframes zu verringern und erhebliche Leistungssteigerungen ohne zusätzliche Komplexität zu erzielen. Wir demonstrieren, dass unser Modell auf den Benchmarks THUMOS'14 und ActivityNet (1.2 & 1.3) signifikant gegenüber aktuellen State-of-the-Art-Methoden abschneidet. Der Quellcode ist unter https://github.com/Pilhyeon/WTAL-Uncertainty-Modeling verfügbar.