HyperAIHyperAI
il y a 2 mois

Vers l'apprentissage faiblement supervisé de bout en bout pour la reconnaissance d'actions dans les vidéos longues

Zhou, Jiaming ; Li, Hanjun ; Lin, Kun-Yu ; Liang, Junwei
Vers l'apprentissage faiblement supervisé de bout en bout pour la reconnaissance d'actions dans les vidéos longues
Résumé

Le développement de modèles de reconnaissance d'actions de bout en bout sur des vidéos longues est fondamental et crucial pour la compréhension des actions dans les vidéos longues. En raison du coût prohibitif de l'entraînement de bout en bout sur l'ensemble des vidéos longues, les travaux existants entraînent généralement les modèles sur des extraits courts issus de ces vidéos longues. Cependant, cette pratique « troncature puis entraînement » nécessite des annotations d'intervalle d'action pour la supervision au niveau des extraits, c'est-à-dire connaître quelles actions ont été tronquées dans les extraits. Malheureusement, recueillir de telles annotations est très coûteux et empêche l'entraînement à grande échelle des modèles. Afin de résoudre ce problème, ce travail vise à construire un cadre d'entraînement faiblement supervisé de bout en bout pour entraîner des modèles de reconnaissance sur des vidéos longues, avec uniquement des étiquettes catégorielles d'action au niveau vidéo. Sans connaître les emplacements temporels précis des actions dans les vidéos longues, notre cadre faiblement supervisé proposé, nommé AdaptFocus, estime où et avec quelle probabilité les actions se produisent afin de se concentrer adaptivement sur les extraits d'action informatifs pour l'entraînement de bout en bout. L'efficacité du cadre AdaptFocus proposé est démontrée sur trois jeux de données de vidéos longues. De plus, pour les tâches ultérieures sur les vidéos longues, notre cadre AdaptFocus fournit une pipeline faiblement supervisée d'extraction de caractéristiques permettant d'extraire des caractéristiques plus robustes des vidéos longues, ce qui améliore considérablement les méthodes actuelles sur ces tâches ultérieures. Nous mettrons à disposition le code et les modèles.

Vers l'apprentissage faiblement supervisé de bout en bout pour la reconnaissance d'actions dans les vidéos longues | Articles de recherche récents | HyperAI