Extraction de structure temporelle pour la détection d'actions sous supervision faible

Contrairement au problème de détection d’actions entièrement supervisé, qui dépend d’étiquetages coûteux au niveau des trames, la détection d’actions faiblement supervisée (WSAD) n’exige que des étiquetages au niveau des vidéos, ce qui la rend plus pratique pour les applications réelles. Les méthodes existantes de WSAD détectent les instances d’actions en évaluant individuellement chaque segment vidéo (un ensemble de trames consécutives). La plupart d’entre elles échouent à modéliser les relations temporelles entre les segments vidéo et ne parviennent pas à caractériser efficacement les instances d’actions possédant une structure temporelle latente. Pour atténuer ce problème dans le cadre de la WSAD, nous proposons une approche appelée extraction de structure temporelle (TSM). Dans TSM, chaque instance d’action est modélisée comme un processus à plusieurs phases, et la dynamique d’évolution des phases au sein d’une instance d’action — c’est-à-dire sa structure temporelle — est exploitée. Parallèlement, le fond vidéo est modélisé par une phase de fond, qui permet de séparer les différentes instances d’actions dans une vidéo non découpée. Dans ce cadre, des filtres de phase sont utilisés pour calculer les scores de confiance de la présence des phases d’une action dans chaque segment. Étant donné que, dans le cadre de la WSAD, les étiquetages au niveau des trames ne sont pas disponibles, les filtres de phase ne peuvent pas être entraînés directement. Pour surmonter ce défi, nous considérons chaque phase d’un segment comme une variable cachée. À partir des scores de confiance des segments fournis par chaque filtre de phase, nous construisons une table et déterminons les variables cachées — c’est-à-dire les phases des segments — en recherchant un chemin circulant maximal à travers cette table. Des expériences menées sur trois jeux de données de référence démontrent que la méthode proposée TSM atteint des performances de pointe par rapport aux états de l’art.