Tiefenweise separable zeitliche Faltungsnetzwerk für die Aktionssegmentierung
Die feinkörnige zeitliche Aktionssegmentierung in langen, ungeschnittenen RGB-Videos ist ein zentrales Thema im Bereich der visuellen Mensch-Maschine-Interaktion. Kürzlich vorgestellte, auf zeitlichen Konvolutionen basierende Ansätze verwenden entweder eine Encoder-Decoder-(ED)-Architektur oder Dilatationen mit einem Verdopplungsfaktor in aufeinanderfolgenden Konvolutionsschichten zur Aktionssegmentierung in Videos. Allerdings arbeiten ED-Netzwerke auf niedriger zeitlicher Auflösung, und die Dilatationen in aufeinanderfolgenden Schichten führen zu Gitterartefakten. Wir schlagen ein depthwise separables zeitliches Konvolutionsnetzwerk (DS-TCN) vor, das auf voller zeitlicher Auflösung arbeitet und eine reduzierte Gitterartefakt-Problematik aufweist. Die grundlegende Komponente des DS-TCN ist der residual depthwise dilated block (RDDB). Mit Hilfe des RDDB untersuchen wir das Kompromiss zwischen großen Kerneln und kleinen Dilatationsraten. Wir zeigen, dass unser DS-TCN in der Lage ist, sowohl langfristige Abhängigkeiten als auch lokale zeitliche Hinweise effizient zu erfassen. Unsere Evaluation an drei Benchmark-Datensätzen – GTEA, 50Salads und Breakfast – zeigt, dass das DS-TCN selbst bei vergleichsweise geringerer Parameteranzahl die bestehenden ED-TCN- und Dilatation-basierten TCN-Baselines übertrifft.