HyperAIHyperAI
il y a 11 jours

Rapport NUS-HLT pour le défi ActivityNet 2021 AVA (Intervenant)

{Haizhou Li, Mike Zheng Shou, Xinyuan Qian, Rohan Kumar Das, Zexu Pan, Ruijie Tao}
Rapport NUS-HLT pour le défi ActivityNet 2021 AVA (Intervenant)
Résumé

La détection de locuteur actif (ASD) vise à identifier qui parle dans une scène visuelle comprenant un ou plusieurs locuteurs. La réussite de l'ASD dépend d'une interprétation précise des informations audio et visuelles à court et à long terme, ainsi que de leur interaction. Contrairement aux travaux antérieurs où les systèmes prenaient des décisions de manière instantanée à partir de caractéristiques à court terme, nous proposons un cadre novateur, nommé TalkNet, qui prend en compte à la fois les caractéristiques à court et à long terme pour prendre des décisions. TalkNet se compose d'encodeurs temporels audio et visuels pour la représentation des caractéristiques, d'un mécanisme d'attention croisée audio-visuelle pour modéliser l'interaction entre les modalités, ainsi que d'un mécanisme d'attention auto pour capturer les preuves de parole à long terme. Les expérimentations montrent que TalkNet obtient une amélioration de 3,5 % et 3,0 % par rapport aux systèmes les plus avancés sur les jeux de données de validation et de test AVA-ActiveSpeaker, respectivement. Nous mettrons à disposition le code source, les modèles et les journaux de données.

Rapport NUS-HLT pour le défi ActivityNet 2021 AVA (Intervenant) | Articles de recherche récents | HyperAI