HyperAIHyperAI
il y a 11 jours

CoLA : Localisation temporelle d'actions faiblement supervisée avec apprentissage par contraste de snippets

Can Zhang, Meng Cao, Dongming Yang, Jie Chen, Yuexian Zou
CoLA : Localisation temporelle d'actions faiblement supervisée avec apprentissage par contraste de snippets
Résumé

La localisation temporelle d’actions faiblement supervisée (WS-TAL) vise à localiser des actions dans des vidéos non coupées à l’aide uniquement d’étiquettes au niveau de la vidéo. La plupart des modèles existants suivent une procédure de « localisation par classification » : ils identifient les régions temporelles qui contribuent le plus à la classification de la vidéo. En général, ces modèles traitent chaque snippet (ou cadre) de manière indépendante, négligeant ainsi les relations riches entre les segments temporels. Cela donne lieu au problème de « tricherie par snippet unique » : les snippets « difficiles » sont trop flous pour être correctement classifiés. Dans cet article, nous affirmons que l’apprentissage par comparaison permet d’identifier ces snippets difficiles, et nous proposons une méthode nommée CoLA (Contrastive learning for Snippet-based Action Localization) pour exploiter l’apprentissage contrastif sur les snippets afin de localiser les actions. Plus précisément, nous introduisons une fonction de perte, appelée SniCo (Snippet Contrast Loss), qui affine la représentation des snippets difficiles dans l’espace des caractéristiques, guidant ainsi le réseau à percevoir des frontières temporelles plus précises et à éviter les interruptions dans les intervalles temporels. Par ailleurs, comme il est impossible d’accéder à des annotations au niveau du cadre, nous proposons un algorithme d’extraction de snippets difficiles (Hard Snippet Mining) pour localiser ces snippets potentiels. Des analyses approfondies confirment que cette stratégie d’extraction capture efficacement les snippets difficiles, tandis que la perte SniCo conduit à des représentations de caractéristiques plus informatives. Des expériences étendues montrent que CoLA atteint des résultats de pointe sur les jeux de données THUMOS’14 et ActivityNet v1.2. Le code de CoLA est disponible publiquement à l’adresse suivante : https://github.com/zhang-can/CoLA.

CoLA : Localisation temporelle d'actions faiblement supervisée avec apprentissage par contraste de snippets | Articles de recherche récents | HyperAI