il y a 8 mois

Résumé

La détection de l'orateur actif (ASD) vise à identifier qui parle dans chaque image d'une vidéo. L'ASD tire ses conclusions à partir des informations audio et visuelles provenant de deux contextes : le contexte intrapersonnel à long terme et le contexte interpersonal à court terme. Le contexte intrapersonnel à long terme modélise les dépendances temporelles du même orateur, tandis que le contexte interpersonal à court terme modélise les interactions entre les orateurs dans la même scène. Ces deux contextes sont complémentaires et peuvent aider à inférer l'orateur actif. Guidés par ces observations, nous proposons LoCoNet, un réseau de contexte long-court simple mais efficace qui modélise le contexte intrapersonnel à long terme et le contexte interpersonal à court terme. Nous utilisons l'auto-attention pour modéliser le contexte intrapersonnel à long terme en raison de son efficacité dans la modélisation des dépendances sur de longues périodes, et des blocs convolutifs qui captent les motifs locaux pour modéliser le contexte interpersonal à court terme.Des expériences approfondies montrent que LoCoNet atteint des performances de pointe sur plusieurs jeux de données, avec un mAP de 95,2 % (+1,1 %) sur AVA-ActiveSpeaker, 68,1 % (+22 %) sur le jeu de données Columbia, 97,2 % (+2,8 %) sur le jeu de données Talkies et 59,7 % (+8,0 %) sur le jeu de données Ego4D. De plus, dans des cas difficiles où plusieurs orateurs sont présents ou où le visage de l'orateur actif est beaucoup plus petit que ceux des autres personnes dans la même scène, LoCoNet surpassent les méthodes précédentes d'état de l'art avec une amélioration de 3,4 % sur le jeu de données AVA-ActiveSpeaker. Le code sera mis à disposition sur https://github.com/SJTUwxz/LoCoNet_ASD.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension Vidéo

Multimodal

Traitement Audio Et Vocal

Audio

Multimodal

Vision Par Ordinateur

Tâche

Xizi Wang¹ Feng Cheng² Gedas Bertasius² David Crandall¹

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension Vidéo

Multimodal

Traitement Audio Et Vocal

Audio

Multimodal

Vision Par Ordinateur

Tâche

Xizi Wang¹ Feng Cheng² Gedas Bertasius² David Crandall¹

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

LoCoNet : Réseau de Contexte Long-Court pour la Détection d'Orateur Actif

Xizi Wang¹ Feng Cheng² Gedas Bertasius² David Crandall¹

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

LoCoNet : Réseau de Contexte Long-Court pour la Détection d'Orateur Actif

Xizi Wang¹ Feng Cheng² Gedas Bertasius² David Crandall¹

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

LoCoNet : Réseau de Contexte Long-Court pour la Détection d'Orateur Actif

Xizi Wang¹ Feng Cheng² Gedas Bertasius² David Crandall¹

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters