HyperAIHyperAI

Command Palette

Search for a command to run...

Wie viel zeitlich langfristiger Kontext ist für die Aktionssegmentierung erforderlich?

Emad Bahrami Gianpiero Francesca Juergen Gall

Zusammenfassung

Die Modellierung langfristiger Kontextinformationen in Videos ist für viele feinabgestimmte Aufgaben, einschließlich der zeitlichen Aktionssegmentierung, von entscheidender Bedeutung. Eine interessante, bisher ungeklärte Frage ist, wie viel langfristiger zeitlicher Kontext für eine optimale Leistung erforderlich ist. Während Transformer die Fähigkeit besitzen, langfristige zeitliche Kontexte in Videos zu modellieren, wird dies bei langen Videos rechnerisch prohibitiv. Daher kombinieren aktuelle Ansätze zur zeitlichen Aktionssegmentierung zeitliche Faltungsnetze mit Selbst-Attention-Operationen, die nur für eine lokale zeitliche Fensterberechnung durchgeführt werden. Obwohl diese Ansätze gute Ergebnisse erzielen, sind ihre Leistungen durch die Unfähigkeit begrenzt, den gesamten Kontext eines Videos zu erfassen. In dieser Arbeit untersuchen wir, wie viel langfristiger zeitlicher Kontext für die zeitliche Aktionssegmentierung notwendig ist, indem wir ein auf Transformers basierendes Modell vorstellen, das spärliche Attention nutzt, um den vollständigen Kontext eines Videos zu erfassen. Wir vergleichen unser Modell mit dem aktuellen Stand der Technik an drei Datensätzen für die zeitliche Aktionssegmentierung, nämlich 50Salads, Breakfast und Assembly101. Unsere Experimente zeigen, dass die Modellierung des vollen Kontexts eines Videos notwendig ist, um die beste Leistung bei der zeitlichen Aktionssegmentierung zu erzielen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp