HyperAIHyperAI

Command Palette

Search for a command to run...

Segmentation d’actions par diffusion

Daochang Liu Qiyue Li AnhDung Dinh Tingting Jiang Mubarak Shah Chang Xu

Résumé

La segmentation d’actions temporelle est essentielle pour comprendre les vidéos longues. Les travaux antérieurs sur cette tâche adoptent généralement un paradigme d’amélioration itérative basé sur des modèles multi-étapes. Nous proposons un cadre novateur fondé sur des modèles de diffusion débruitants, qui partage toutefois l’esprit fondamental de cette amélioration itérative. Dans ce cadre, les prédictions d’actions sont générées itérativement à partir de bruit aléatoire, en conditionnant sur les caractéristiques vidéo d’entrée. Pour améliorer la modélisation de trois caractéristiques marquantes des actions humaines — à savoir le préalable de position, l’ambiguïté des bornes et la dépendance relationnelle — nous avons conçu une stratégie unifiée de masquage pour les entrées conditionnelles. Des expériences étendues menées sur trois jeux de données standard — GTEA, 50Salads et Breakfast — montrent que la méthode proposée atteint des résultats supérieurs ou comparables aux méthodes de pointe, démontrant ainsi l’efficacité d’une approche générative pour la segmentation d’actions.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp