Diffusion Action Segmentation

Die zeitliche Aktionssegmentierung ist entscheidend für das Verständnis von Langform-Videos. Bisherige Ansätze für diese Aufgabe verwenden häufig ein iteratives Verbesserungsparadigma mittels mehrstufiger Modelle. Wir schlagen einen neuartigen Rahmenwerk mittels Rauschunterdrückungs-Diffusionsmodellen vor, der dennoch den gleichen grundlegenden Geist dieser iterativen Verbesserung bewahrt. In diesem Rahmenwerk werden Aktionsvorhersagen iterativ aus zufälligem Rauschen generiert, wobei die Eingabevideofeatures als Bedingung dienen. Um die drei charakteristischen Merkmale menschlicher Aktionen – nämlich das Positionsvorwissen, die Grenzambiguität und die relationale Abhängigkeit – effektiver zu modellieren, entwickeln wir eine einheitliche Maskierungsstrategie für die Bedingungseingaben in unserem Framework. Umfassende Experimente an drei Standard-Datensätzen – GTEA, 50Salads und Breakfast – zeigen, dass die vorgeschlagene Methode Ergebnisse erzielt, die den besten bisherigen Methoden gleichkommen oder sie sogar übertrifft, was die Wirksamkeit eines generativen Ansatzes für die Aktionssegmentierung belegt.