HyperAIHyperAI

Command Palette

Search for a command to run...

Diffusion Action Segmentation

Daochang Liu Qiyue Li AnhDung Dinh Tingting Jiang Mubarak Shah Chang Xu

Zusammenfassung

Die zeitliche Aktionssegmentierung ist entscheidend für das Verständnis von Langform-Videos. Bisherige Ansätze für diese Aufgabe verwenden häufig ein iteratives Verbesserungsparadigma mittels mehrstufiger Modelle. Wir schlagen einen neuartigen Rahmenwerk mittels Rauschunterdrückungs-Diffusionsmodellen vor, der dennoch den gleichen grundlegenden Geist dieser iterativen Verbesserung bewahrt. In diesem Rahmenwerk werden Aktionsvorhersagen iterativ aus zufälligem Rauschen generiert, wobei die Eingabevideofeatures als Bedingung dienen. Um die drei charakteristischen Merkmale menschlicher Aktionen – nämlich das Positionsvorwissen, die Grenzambiguität und die relationale Abhängigkeit – effektiver zu modellieren, entwickeln wir eine einheitliche Maskierungsstrategie für die Bedingungseingaben in unserem Framework. Umfassende Experimente an drei Standard-Datensätzen – GTEA, 50Salads und Breakfast – zeigen, dass die vorgeschlagene Methode Ergebnisse erzielt, die den besten bisherigen Methoden gleichkommen oder sie sogar übertrifft, was die Wirksamkeit eines generativen Ansatzes für die Aktionssegmentierung belegt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp