HyperAIHyperAI
il y a 2 mois

Réseau de convolution 3D à deux flux pour la détection d'activités temporelles

Huijuan Xu; Abir Das; Kate Saenko
Réseau de convolution 3D à deux flux pour la détection d'activités temporelles
Résumé

Nous abordons le problème de détection d'activités temporelles dans des flux vidéo continus et non tronqués. Cette tâche est complexe car elle nécessite l'extraction de caractéristiques spatio-temporelles significatives pour capturer les activités, ainsi qu'une localisation précise des temps de début et de fin de chaque activité. Nous introduisons un nouveau modèle, le Réseau 3D à Convolutions Régionales (R-C3D), qui encode les flux vidéo à l'aide d'un réseau neuronal convolutif entièrement tridimensionnel, génère ensuite des régions temporelles candidates contenant des activités et, enfin, classe ces régions sélectionnées en activités spécifiques. Les calculs sont optimisés grâce au partage des caractéristiques convolutives entre les pipelines de proposition et de classification. Nous améliorons davantage les performances de détection en intégrant efficacement un flux de mouvement basé sur l'optique avec le flux RGB original. Le réseau à deux flux est conjointement optimisé en fusionnant les cartes de caractéristiques optiques et RGB à différents niveaux. De plus, la phase d'entraînement incorpore une stratégie d'extraction en ligne des exemples difficiles pour traiter l'important déséquilibre entre premier plan et arrière-plan généralement observé dans tout pipeline de détection. Au lieu d'échantillonner heuristiquement les segments candidats pour la phase finale de classification des activités, nous les classons selon leurs performances et ne sélectionnons que ceux qui se comportent le plus mal pour mettre à jour le modèle. Cela améliore le modèle sans un ajustement lourd des hyperparamètres. Des expériences approfondies sont menées sur trois jeux de données de référence pour montrer une performance supérieure aux méthodes existantes de détection d'activités temporelles. Notre modèle obtient des résultats d'état de l'art sur les jeux de données THUMOS'14 et Charades. Nous démontrons également que notre modèle constitue un cadre général pour la détection d'activités temporelles qui ne repose pas sur des hypothèses concernant les propriétés spécifiques d'un jeu de données donné, en évaluant notre approche sur le jeu de données ActivityNet.