CTAP: Generierung komplementärer zeitlicher Aktionenvorschläge

Die Generierung von zeitlichen Aktionenvorschlägen ist eine wichtige Aufgabe, vergleichbar mit Objektvorschlägen. Zeitliche Aktionenvorschläge sollen "Clips" oder zeitliche Intervalle in Videos erfassen, die wahrscheinlich eine Aktion enthalten. Vorherige Methoden lassen sich in zwei Gruppen unterteilen: das Ranking von gleitenden Fenstern und die Gruppierung nach Aktionsbewertungen. Gleitende Fenster bedecken gleichmäßig alle Segmente in Videos, aber ihre zeitlichen Grenzen sind ungenau; die gruppierungsorientierten Methoden können präzisere Grenzen haben, aber sie können einige Vorschläge bei niedriger Qualität der Aktionsbewertung übersehen. Basierend auf den komplementären Eigenschaften dieser beiden Methoden schlagen wir einen neuen Complementary Temporal Action Proposal (CTAP)-Generator vor. Insbesondere wenden wir einen Proposal-level Actionness Trustworthiness Estimator (PATE) auf die Vorschläge der gleitenden Fenster an, um Wahrscheinlichkeiten zu generieren, die angeben, ob Aktionen durch Aktionsbewertungen korrekt erkannt werden können. Fenster mit hohen Bewertungen werden gesammelt. Die gesammelten gleitenden Fenster und die Aktionsbewertungsvorschläge werden dann durch ein zeitliches Faltungsneuronales Netzwerk für das Vorschlagsranking und die Anpassung der Grenzen verarbeitet. CTAP erreicht auf den Datensätzen THUMOS-14 und ActivityNet 1.3 durchschnittliche Recall-Werte (AR), die deutlich besser sind als der Stand der Technik. Wir wenden CTAP zudem als Vorschlagsgeneratormethode in einem existierenden Aktionserkennungsmodell an und zeigen konsistente signifikante Verbesserungen.