Bridge-Prompt : Vers une compréhension ordonnée des actions dans les vidéos d'instructions

Les modèles de reconnaissance d’actions ont démontré une capacité prometteuse à classifier les actions humaines dans des courtes séquences vidéo. Dans un scénario réel, plusieurs actions humaines corrélées surviennent fréquemment selon des ordres spécifiques, formant ainsi des activités humaines sémantiquement significatives. Les approches classiques de reconnaissance d’actions se concentrent sur l’analyse d’actions individuelles, mais elles échouent à raisonner pleinement sur les relations contextuelles entre actions adjacentes, qui fournissent pourtant une logique temporelle potentielle pour comprendre des vidéos longues. Dans cet article, nous proposons un cadre basé sur des prompts, appelé Bridge-Prompt (Br-Prompt), afin de modéliser les sémantiques entre actions adjacentes, permettant ainsi d’exploiter simultanément les informations hors contexte et contextuelles issues d’une série d’actions ordonnées dans des vidéos explicatives. Plus précisément, nous reformulons les étiquettes d’actions individuelles en prompts textuels intégrés pour la supervision, ce qui permet de combler le fossé entre les sémantiques des actions individuelles. Ces prompts textuels générés sont associés aux séquences vidéo correspondantes et co-entraînent conjointement l’encodeur de texte et l’encodeur vidéo via une approche contrastive. L’encodeur visionnel appris présente ainsi une capacité renforcée pour les tâches en aval liées aux actions ordonnées, telles que la segmentation d’actions et la reconnaissance d’activités humaines. Nous évaluons les performances de notre approche sur plusieurs jeux de données vidéo : Georgia Tech Egocentric Activities (GTEA), 50Salads et le jeu de données Breakfast. Br-Prompt atteint des résultats de pointe sur plusieurs benchmarks. Le code est disponible à l’adresse suivante : https://github.com/ttlmh/Bridge-Prompt