il y a 2 mois
Naver au Défi ActivityNet 2019 -- Tâche B Détection de l'Orateur Actif (AVA)
Chung, Joon Son

Résumé
Ce rapport décrit notre soumission au défi ActivityNet lors de la conférence CVPR 2019. Nous utilisons un front-end basé sur un réseau neuronal convolutif tridimensionnel (3D CNN) et une combinaison de classificateurs à convolution temporelle et LSTM pour prédire si une personne visible est en train de parler ou non. Nos résultats montrent des améliorations significatives par rapport à la ligne de base sur le jeu de données AVA-ActiveSpeaker.