Segmentation d’actions par diffusion

La segmentation d’actions temporelle est essentielle pour comprendre les vidéos longues. Les travaux antérieurs sur cette tâche adoptent généralement un paradigme d’amélioration itérative basé sur des modèles multi-étapes. Nous proposons un cadre novateur fondé sur des modèles de diffusion débruitants, qui partage toutefois l’esprit fondamental de cette amélioration itérative. Dans ce cadre, les prédictions d’actions sont générées itérativement à partir de bruit aléatoire, en conditionnant sur les caractéristiques vidéo d’entrée. Pour améliorer la modélisation de trois caractéristiques marquantes des actions humaines — à savoir le préalable de position, l’ambiguïté des bornes et la dépendance relationnelle — nous avons conçu une stratégie unifiée de masquage pour les entrées conditionnelles. Des expériences étendues menées sur trois jeux de données standard — GTEA, 50Salads et Breakfast — montrent que la méthode proposée atteint des résultats supérieurs ou comparables aux méthodes de pointe, démontrant ainsi l’efficacité d’une approche générative pour la segmentation d’actions.