TalkNCE : Amélioration de la détection d'orateur actif avec un apprentissage contrastif sensible à la parole

L'objectif de cette étude est la détection d'orateur actif (Active Speaker Detection, ASD), une tâche visant à déterminer si une personne parle ou non dans une série de trames vidéo. Les travaux précédents ont abordé cette tâche en explorant des architectures de réseau, tandis que l'apprentissage de représentations efficaces a été moins étudié. Dans ce travail, nous proposons TalkNCE, une nouvelle perte contrastive sensible au discours. Cette perte n'est appliquée qu'à certaines parties des segments complets où la personne à l'écran parle réellement. Cela encourage le modèle à apprendre des représentations efficaces grâce à la correspondance naturelle entre le discours et les mouvements faciaux. Notre perte peut être optimisée conjointement avec les objectifs existants pour l'entraînement des modèles ASD sans nécessiter de supervision supplémentaire ni de données d'entraînement supplémentaires. Les expériences montrent que notre perte peut être facilement intégrée aux cadres ASD existants, améliorant leurs performances. Notre méthode atteint des performances de pointe sur les jeux de données AVA-ActiveSpeaker et ASW.