Command Palette
Search for a command to run...
Tiefenweise separable zeitliche Faltungsnetzwerk für die Aktionssegmentierung
Tiefenweise separable zeitliche Faltungsnetzwerk für die Aktionssegmentierung
Heiko Neumann Wolfgang Mader Christian Jarvers Basavaraj Hampiholi
Zusammenfassung
Die feinkörnige zeitliche Aktionssegmentierung in langen, ungeschnittenen RGB-Videos ist ein zentrales Thema im Bereich der visuellen Mensch-Maschine-Interaktion. Kürzlich vorgestellte, auf zeitlichen Konvolutionen basierende Ansätze verwenden entweder eine Encoder-Decoder-(ED)-Architektur oder Dilatationen mit einem Verdopplungsfaktor in aufeinanderfolgenden Konvolutionsschichten zur Aktionssegmentierung in Videos. Allerdings arbeiten ED-Netzwerke auf niedriger zeitlicher Auflösung, und die Dilatationen in aufeinanderfolgenden Schichten führen zu Gitterartefakten. Wir schlagen ein depthwise separables zeitliches Konvolutionsnetzwerk (DS-TCN) vor, das auf voller zeitlicher Auflösung arbeitet und eine reduzierte Gitterartefakt-Problematik aufweist. Die grundlegende Komponente des DS-TCN ist der residual depthwise dilated block (RDDB). Mit Hilfe des RDDB untersuchen wir das Kompromiss zwischen großen Kerneln und kleinen Dilatationsraten. Wir zeigen, dass unser DS-TCN in der Lage ist, sowohl langfristige Abhängigkeiten als auch lokale zeitliche Hinweise effizient zu erfassen. Unsere Evaluation an drei Benchmark-Datensätzen – GTEA, 50Salads und Breakfast – zeigt, dass das DS-TCN selbst bei vergleichsweise geringerer Parameteranzahl die bestehenden ED-TCN- und Dilatation-basierten TCN-Baselines übertrifft.