HyperAIHyperAI

Command Palette

Search for a command to run...

Activité audiovisuelle guidée pour l'association d'identité intermodale dans la détection d'un locuteur actif

RAHUL SHARMA SHRIKANTH NARAYANAN

Résumé

La détection de l'orateur actif dans les vidéos vise à associer un visage source, visible dans les images vidéo, au discours sous-jacent dans le domaine audio. Les deux principales sources d'information pour établir une telle relation entre le discours et le visage sont i) l'activité visuelle et son interaction avec le signal de parole et ii) les co-occurrences des identités des orateurs entre les différents modes, sous forme de visages et de discours. Ces deux approches ont leurs limites : les modèles d'activité audiovisuelle peuvent être confondus avec d'autres activités vocales fréquentes, comme rire ou mâcher, tandis que les méthodes basées sur l'identité des orateurs sont limitées aux vidéos qui disposent d'informations suffisamment distinctives pour établir une association entre le discours et le visage. Comme ces deux approches sont indépendantes, nous examinons leur nature complémentaire dans cette étude. Nous proposons un cadre novateur non supervisé pour guider l'association intermodale des identités des orateurs avec l'activité audiovisuelle afin de détecter l'orateur actif. À travers des expériences menées sur des vidéos de médias divertissants issues de deux ensembles de données de référence, l'ensemble de données AVA active speaker (films) et l'ensemble de données Visual Person Clustering (émissions télévisées), nous montrons qu'une fusion tardive simple des deux approches améliore les performances de détection de l'orateur actif.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp