il y a 8 mois

Résumé

La détection de l'orateur actif (ASD) dans des vidéos comportant plusieurs orateurs est une tâche complexe car elle nécessite d'apprendre des caractéristiques audiovisuelles efficaces et des corrélations spatio-temporelles sur de longues fenêtres temporelles. Dans cet article, nous présentons SPELL, un nouveau cadre d'apprentissage de graphes spatio-temporels capable de résoudre des tâches complexes telles que l'ASD. À cette fin, chaque personne dans un cadre vidéo est d'abord encodée dans un nœud unique pour ce cadre. Les nœuds correspondant à une seule personne sur plusieurs cadres sont connectés pour encoder leurs dynamiques temporelles. Les nœuds au sein d'un même cadre sont également connectés pour encoder les relations interpersonnelles. Ainsi, SPELL réduit l'ASD à une tâche de classification de nœuds. De manière importante, SPELL est capable de raisonner sur des contextes temporels longs pour tous les nœuds sans avoir recours à des réseaux neuronaux graphiques entièrement connectés qui sont coûteux en termes de calcul. Par le biais d'expériences approfondies sur le jeu de données AVA-ActiveSpeaker, nous démontrons que l'apprentissage de représentations basées sur des graphes peut améliorer considérablement les performances de détection de l'orateur actif grâce à sa structure spatiale et temporelle explicite. SPELL surpassant toutes les approches précédentes de pointe tout en nécessitant des ressources mémoire et computationnelles nettement inférieures, notre code est librement accessible sur https://github.com/SRA2/SPELL.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Vision Par Ordinateur

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Min Kyle ; Roy Sourya ; Tripathi Subarna ; Guha Tanaya ; Majumdar Somdeb

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Vision Par Ordinateur

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Min Kyle ; Roy Sourya ; Tripathi Subarna ; Guha Tanaya ; Majumdar Somdeb

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Apprentissage de graphes spatio-temporels à long terme pour la détection d'orateurs actifs | Articles | HyperAI

Command Palette

Apprentissage de graphes spatio-temporels à long terme pour la détection d'orateurs actifs

Min Kyle ; Roy Sourya ; Tripathi Subarna ; Guha Tanaya ; Majumdar Somdeb

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Apprentissage de graphes spatio-temporels à long terme pour la détection d'orateurs actifs

Min Kyle ; Roy Sourya ; Tripathi Subarna ; Guha Tanaya ; Majumdar Somdeb

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Apprentissage de graphes spatio-temporels à long terme pour la détection d'orateurs actifs

Min Kyle ; Roy Sourya ; Tripathi Subarna ; Guha Tanaya ; Majumdar Somdeb

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters