Command Palette
Search for a command to run...
TalkNCE : Amélioration de la détection d'orateur actif avec un apprentissage contrastif sensible à la parole
TalkNCE : Amélioration de la détection d'orateur actif avec un apprentissage contrastif sensible à la parole
Chaeyoung Jung extsuperscript1* Suyeon Lee extsuperscript1* Kihyun Nam extsuperscript1 Kyeongha Rho extsuperscript1 You Jin Kim extsuperscript2 Youngjoon Jang extsuperscript1 Joon Son Chung extsuperscript1
Résumé
L'objectif de cette étude est la détection d'orateur actif (Active Speaker Detection, ASD), une tâche visant à déterminer si une personne parle ou non dans une série de trames vidéo. Les travaux précédents ont abordé cette tâche en explorant des architectures de réseau, tandis que l'apprentissage de représentations efficaces a été moins étudié. Dans ce travail, nous proposons TalkNCE, une nouvelle perte contrastive sensible au discours. Cette perte n'est appliquée qu'à certaines parties des segments complets où la personne à l'écran parle réellement. Cela encourage le modèle à apprendre des représentations efficaces grâce à la correspondance naturelle entre le discours et les mouvements faciaux. Notre perte peut être optimisée conjointement avec les objectifs existants pour l'entraînement des modèles ASD sans nécessiter de supervision supplémentaire ni de données d'entraînement supplémentaires. Les expériences montrent que notre perte peut être facilement intégrée aux cadres ASD existants, améliorant leurs performances. Notre méthode atteint des performances de pointe sur les jeux de données AVA-ActiveSpeaker et ASW.