HyperAIHyperAI
il y a 2 mois

W-TALC : Localisation et classification d'activités temporelles faiblement supervisées

Sujoy Paul; Sourya Roy; Amit K Roy-Chowdhury
W-TALC : Localisation et classification d'activités temporelles faiblement supervisées
Résumé

La plupart des méthodes de localisation d'activités dans la littérature souffrent du fardeau de l'exigence d'annotation image par image. L'apprentissage à partir de labels faibles pourrait être une solution potentielle pour réduire cet effort de labellisation manuelle. Ces dernières années ont vu une augmentation considérable du nombre de vidéos étiquetées sur Internet, qui peuvent servir de source riche de données d'entraînement faiblement supervisées. Plus précisément, les corrélations entre les vidéos ayant des tags similaires peuvent être exploitées pour localiser temporellement les activités. Dans cette optique, nous présentons W-TALC, un cadre de localisation et classification temporelle d'activités faiblement supervisé utilisant uniquement des labels au niveau vidéo. Le réseau proposé peut être divisé en deux sous-réseaux, à savoir le réseau extracteur de caractéristiques basé sur Two-Stream et un module faiblement supervisé, que nous apprenons en optimisant deux fonctions de perte complémentaires. Les résultats qualitatifs et quantitatifs sur deux jeux de données difficiles - Thumos14 et ActivityNet1.2 - démontrent que la méthode proposée est capable de détecter les activités avec une granularité fine et d'atteindre des performances supérieures aux méthodes actuelles de pointe.

W-TALC : Localisation et classification d'activités temporelles faiblement supervisées | Articles de recherche récents | HyperAI