HyperAIHyperAI
il y a 2 mois

Générateur multi-granularité pour les propositions d'actions temporelles

Yuan Liu; Lin Ma; Yifeng Zhang; Wei Liu; Shih-Fu Chang
Générateur multi-granularité pour les propositions d'actions temporelles
Résumé

La génération de propositions d'actions temporelles est une tâche importante visant à localiser les segments vidéo contenant des actions humaines dans une vidéo non tronquée. Dans cet article, nous proposons un générateur multi-granularité (MGG) pour effectuer la proposition d'actions temporelles sous différents angles de granularité, en s'appuyant sur les caractéristiques visuelles de la vidéo enrichies d'informations d'emplacement. Tout d'abord, nous proposons d'utiliser un modèle de correspondance bilinéaire pour exploiter les informations locales riches au sein de la séquence vidéo. Ensuite, deux composants, le producteur de propositions de segments (SPP) et le producteur d'actionnalité par image (FAP), sont combinés pour réaliser la tâche de proposition d'actions temporelles à deux niveaux de granularité distincts. Le SPP considère l'ensemble de la vidéo sous forme de pyramide de caractéristiques et génère des propositions de segments selon une perspective grossière, tandis que le FAP effectue une évaluation plus fine de l'actionnalité pour chaque image du vidéo. Notre MGG proposé peut être entraîné selon une approche bout-à-bout. En ajustant temporellement les propositions de segments avec des informations d'actionnalité détaillées par image, le MGG obtient des performances supérieures aux méthodes les plus avancées sur les jeux de données publics THUMOS-14 et ActivityNet-1.3. De plus, nous utilisons des classifieurs d'actions existants pour classifier les propositions générées par notre MGG, ce qui conduit à des améliorations significatives par rapport aux méthodes concurrentes pour la tâche de détection vidéo.

Générateur multi-granularité pour les propositions d'actions temporelles | Articles de recherche récents | HyperAI