vor 11 Tagen

Vorschlagsfreie zeitliche Aktionsdetektion durch Lernen globaler Segmentierungs-Masken

Sauradip Nag, Xiatian Zhu, Yi-Zhe Song, Tao Xiang

Abstract

Bestehende Methoden zur zeitlichen Aktionsdetektion (Temporal Action Detection, TAD) beruhen auf der Generierung einer überwältigend großen Anzahl von Vorschlägen pro Video. Dies führt aufgrund der Vorschlagsgenerierung und/oder der Bewertung einzelner Vorschläge zu komplexen Modellarchitekturen sowie zu hohen Rechenkosten. In dieser Arbeit stellen wir erstmals ein proposalsfreies Modell zur zeitlichen Aktionsdetektion mit globaler Segmentierungsmaske (TAGS) vor. Unser zentrales Konzept besteht darin, gemeinsam über die gesamte Video-Länge eine globale Segmentierungsmaske für jede Aktionsinstanz zu lernen. Das TAGS-Modell unterscheidet sich erheblich von herkömmlichen, auf Vorschlägen basierenden Ansätzen, da es sich auf die Lernung globaler zeitlicher Repräsentationen konzentriert, um lokale Start- und Endpunkte von Aktionsinstanzen direkt ohne Vorschläge zu detektieren. Darüber hinaus benötigt TAGS aufgrund einer ganzheitlichen Modellierung von TAD anstelle einer lokalen Behandlung auf Ebene einzelner Vorschläge eine deutlich einfachere Architektur mit geringerem Rechenaufwand. Umfangreiche Experimente zeigen, dass TAGS trotz seiner vereinfachten Architektur bestehende TAD-Methoden übertrifft und auf zwei Benchmark-Datensätzen neue SOTA-Leistungen erzielt. Insbesondere ist das Training etwa 20-mal schneller und die Inferenz etwa 1,6-mal effizienter. Die PyTorch-Implementierung von TAGS ist unter https://github.com/sauradip/TAGS verfügbar.