vor 11 Tagen

Eine empirische Studie zur end-to-end zeitlichen Aktionsdetektion

Xiaolong Liu, Song Bai, Xiang Bai

Abstract

Die zeitliche Aktionsdetektion (Temporal Action Detection, TAD) ist eine wichtige, jedoch herausfordernde Aufgabe im Bereich des Videoverstehens. Ziel ist es, gleichzeitig die semantische Bezeichnung und das zeitliche Intervall jeder Aktionsinstanz in einem ungeschnittenen Video vorherzusagen. Im Gegensatz zu end-to-end-Lernansätzen verfolgen die meisten bestehenden Methoden ein Head-only-Lernparadigma, bei dem der Video-Encoder zunächst für die Aktionsklassifikation vortrainiert wird und lediglich der Detektionskopf oberhalb des Encoders für die TAD optimiert wird. Der Einfluss von end-to-end-Lernen wurde bisher nicht systematisch evaluiert. Zudem fehlt eine eingehende Untersuchung des Kompromisses zwischen Effizienz und Genauigkeit im Kontext end-to-end-TAD. In dieser Arbeit präsentieren wir eine empirische Studie zur end-to-end-zeitlichen Aktionsdetektion. Wir bestätigen den Vorteil des end-to-end-Lernens gegenüber dem Head-only-Ansatz und beobachten eine Leistungssteigerung von bis zu 11 %. Darüber hinaus untersuchen wir die Auswirkungen mehrerer Designentscheidungen, die die TAD-Leistung und -Geschwindigkeit beeinflussen, darunter der Detektionskopf, der Video-Encoder sowie die Auflösung der Eingabevideos. Auf Basis dieser Erkenntnisse entwickeln wir einen Baseline-Detektor mit mittlerer Auflösung, der die derzeit beste Leistung end-to-end-Methoden erreicht und dabei mehr als 4-mal schneller läuft. Wir hoffen, dass diese Arbeit als Leitfaden für end-to-end-Lernansätze dienen und zukünftige Forschung in diesem Bereich anregen wird. Der Quellcode und die Modelle sind unter \url{https://github.com/xlliu7/E2E-TAD} verfügbar.