HyperAIHyperAI
il y a 11 jours

Répétition élaborée pour la reconnaissance d’actions zéro-shot

Shizhe Chen, Dong Huang
Répétition élaborée pour la reconnaissance d’actions zéro-shot
Résumé

Le nombre croissant de classes d’actions pose un nouveau défi pour la compréhension vidéo, faisant du Reconnaissance d’Actions Zéro-Shot (ZSAR) un domaine en plein essor. Cette tâche vise à reconnaître des actions cibles (inconnues) sans exemples d’entraînement, en exploitant des représentations sémantiques pour relier les actions vues et celles non vues. Toutefois, en raison de la complexité et de la diversité des actions, il reste difficile de représenter sémantiquement les classes d’actions et de transférer efficacement les connaissances issues des données vues. Dans ce travail, nous proposons un modèle ZSAR amélioré par une technique de mémoire humaine efficace, appelée Répétition Élaborée (ER), qui consiste à enrichir une nouvelle notion en la reliant à des concepts déjà connus. Plus précisément, nous transformons chaque classe d’action en une phrase de description élaborée (ED), plus discriminative qu’un simple nom de classe et moins coûteuse à définir que des attributs manuels. En plus de l’alignement direct entre la sémantique des classes et les vidéos, nous intégrons des objets présents dans les vidéos comme concepts élaborés (EC) afin d’améliorer la sémantique vidéo et la généralisation des actions vues vers les actions inconnues. Notre modèle ZSAR amélioré par ER atteint des résultats de pointe sur trois benchmarks existants. En outre, nous proposons un nouveau protocole d’évaluation ZSAR sur le jeu de données Kinetics, afin de surmonter les limites des benchmarks actuels, et démontrons pour la première fois que les performances du ZSAR sont comparables à celles des méthodes de apprentissage peu supervisé dans un cadre plus réaliste. Nous mettrons à disposition nos codes et les descriptions élaborées collectées à l’adresse suivante : https://github.com/DeLightCMU/ElaborativeRehearsal.

Répétition élaborée pour la reconnaissance d’actions zéro-shot | Articles de recherche récents | HyperAI