Soumission d'ICTCAS-UCAS-TAL à la tâche AVA-ActiveSpeaker au ActivityNet Challenge 2021

Ce rapport présente une brève description de notre méthode pour la tâche de détection de locuteur actif (ASD) sur AVA au sein du ActivityNet Challenge 2021. Notre solution, le Réseau à Contexte Unifié Étendu (Extended UniCon), repose sur un nouveau modèle, le Réseau à Contexte Unifié (UniCon), conçu pour une détection robuste des locuteurs actifs, qui combine divers types d'informations contextuelles afin d'optimiser simultanément tous les candidats. Nous proposons plusieurs améliorations par rapport à l'architecture originale UniCon, notamment en matière de représentations audio, d'architecture de modélisation temporelle et de conception de fonction de perte. Grâce à notre meilleur ensemble de modèles, nous atteignons un nouveau record mondial avec un taux de 93,4 % de mAP sur le jeu de test AVA-ActiveSpeaker, sans recourir à aucun pré-entraînement, et occupons actuellement la première place au classement du ActivityNet Challenge.