Wie viel zeitlich langfristiger Kontext ist für die Aktionssegmentierung erforderlich?

Die Modellierung langfristiger Kontextinformationen in Videos ist für viele feinabgestimmte Aufgaben, einschließlich der zeitlichen Aktionssegmentierung, von entscheidender Bedeutung. Eine interessante, bisher ungeklärte Frage ist, wie viel langfristiger zeitlicher Kontext für eine optimale Leistung erforderlich ist. Während Transformer die Fähigkeit besitzen, langfristige zeitliche Kontexte in Videos zu modellieren, wird dies bei langen Videos rechnerisch prohibitiv. Daher kombinieren aktuelle Ansätze zur zeitlichen Aktionssegmentierung zeitliche Faltungsnetze mit Selbst-Attention-Operationen, die nur für eine lokale zeitliche Fensterberechnung durchgeführt werden. Obwohl diese Ansätze gute Ergebnisse erzielen, sind ihre Leistungen durch die Unfähigkeit begrenzt, den gesamten Kontext eines Videos zu erfassen. In dieser Arbeit untersuchen wir, wie viel langfristiger zeitlicher Kontext für die zeitliche Aktionssegmentierung notwendig ist, indem wir ein auf Transformers basierendes Modell vorstellen, das spärliche Attention nutzt, um den vollständigen Kontext eines Videos zu erfassen. Wir vergleichen unser Modell mit dem aktuellen Stand der Technik an drei Datensätzen für die zeitliche Aktionssegmentierung, nämlich 50Salads, Breakfast und Assembly101. Unsere Experimente zeigen, dass die Modellierung des vollen Kontexts eines Videos notwendig ist, um die beste Leistung bei der zeitlichen Aktionssegmentierung zu erzielen.