il y a 8 mois

Résumé

La détection réussie d'un locuteur actif nécessite un pipeline en trois étapes : (i) l'encodage audiovisuel de tous les locuteurs dans la séquence vidéo, (ii) la modélisation des relations inter-locuteurs entre un locuteur de référence et les locuteurs de fond dans chaque image, et (iii) la modélisation temporelle du locuteur de référence. Chaque étape de ce pipeline joue un rôle crucial pour la performance finale de l'architecture créée. Sur la base d'une série d'expériences contrôlées, cette étude présente plusieurs lignes directrices pratiques pour la détection audiovisuelle d'un locuteur actif. Parallèlement, nous présentons une nouvelle architecture appelée ASDNet, qui atteint un nouveau niveau d'excellence sur le jeu de données AVA-ActiveSpeaker avec un mAP de 93,5 %, surpassant largement le deuxième meilleur modèle par une marge de 4,7 %. Notre code et nos modèles pré-entraînés sont disponibles au public.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Compréhension Vidéo

Traitement Audio Et Vocal

Audio

Multimodal

Vision Par Ordinateur

Tâche

Köpüklü Okan ; Taseska Maja ; Rigoll Gerhard

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Compréhension Vidéo

Traitement Audio Et Vocal

Audio

Multimodal

Vision Par Ordinateur

Tâche

Köpüklü Okan ; Taseska Maja ; Rigoll Gerhard

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Comment Concevoir une Architecture en Trois Étapes pour la Détection Audiovisuelle d'un Locuteur Actif dans des Conditions Réelles

K&#xf6;p&#xfc;kl&#xfc; Okan ; Taseska Maja ; Rigoll Gerhard

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Comment Concevoir une Architecture en Trois Étapes pour la Détection Audiovisuelle d'un Locuteur Actif dans des Conditions Réelles

K&#xf6;p&#xfc;kl&#xfc; Okan ; Taseska Maja ; Rigoll Gerhard

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Comment Concevoir une Architecture en Trois Étapes pour la Détection Audiovisuelle d'un Locuteur Actif dans des Conditions Réelles

K&#xf6;p&#xfc;kl&#xfc; Okan ; Taseska Maja ; Rigoll Gerhard

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Köpüklü Okan ; Taseska Maja ; Rigoll Gerhard

Köpüklü Okan ; Taseska Maja ; Rigoll Gerhard

Köpüklü Okan ; Taseska Maja ; Rigoll Gerhard