HyperAIHyperAI

Command Palette

Search for a command to run...

Comment Concevoir une Architecture en Trois Étapes pour la Détection Audiovisuelle d'un Locuteur Actif dans des Conditions Réelles

Köpüklü Okan ; Taseska Maja ; Rigoll Gerhard

Résumé

La détection réussie d'un locuteur actif nécessite un pipeline en trois étapes : (i) l'encodage audiovisuel de tous les locuteurs dans la séquence vidéo, (ii) la modélisation des relations inter-locuteurs entre un locuteur de référence et les locuteurs de fond dans chaque image, et (iii) la modélisation temporelle du locuteur de référence. Chaque étape de ce pipeline joue un rôle crucial pour la performance finale de l'architecture créée. Sur la base d'une série d'expériences contrôlées, cette étude présente plusieurs lignes directrices pratiques pour la détection audiovisuelle d'un locuteur actif. Parallèlement, nous présentons une nouvelle architecture appelée ASDNet, qui atteint un nouveau niveau d'excellence sur le jeu de données AVA-ActiveSpeaker avec un mAP de 93,5 %, surpassant largement le deuxième meilleur modèle par une marge de 4,7 %. Notre code et nos modèles pré-entraînés sont disponibles au public.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Comment Concevoir une Architecture en Trois Étapes pour la Détection Audiovisuelle d'un Locuteur Actif dans des Conditions Réelles | Articles | HyperAI