HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de graphes spatio-temporels à long terme pour la détection d'orateurs actifs

Min Kyle ; Roy Sourya ; Tripathi Subarna ; Guha Tanaya ; Majumdar Somdeb

Résumé

La détection de l'orateur actif (ASD) dans des vidéos comportant plusieurs orateurs est une tâche complexe car elle nécessite d'apprendre des caractéristiques audiovisuelles efficaces et des corrélations spatio-temporelles sur de longues fenêtres temporelles. Dans cet article, nous présentons SPELL, un nouveau cadre d'apprentissage de graphes spatio-temporels capable de résoudre des tâches complexes telles que l'ASD. À cette fin, chaque personne dans un cadre vidéo est d'abord encodée dans un nœud unique pour ce cadre. Les nœuds correspondant à une seule personne sur plusieurs cadres sont connectés pour encoder leurs dynamiques temporelles. Les nœuds au sein d'un même cadre sont également connectés pour encoder les relations interpersonnelles. Ainsi, SPELL réduit l'ASD à une tâche de classification de nœuds. De manière importante, SPELL est capable de raisonner sur des contextes temporels longs pour tous les nœuds sans avoir recours à des réseaux neuronaux graphiques entièrement connectés qui sont coûteux en termes de calcul. Par le biais d'expériences approfondies sur le jeu de données AVA-ActiveSpeaker, nous démontrons que l'apprentissage de représentations basées sur des graphes peut améliorer considérablement les performances de détection de l'orateur actif grâce à sa structure spatiale et temporelle explicite. SPELL surpassant toutes les approches précédentes de pointe tout en nécessitant des ressources mémoire et computationnelles nettement inférieures, notre code est librement accessible sur https://github.com/SRA2/SPELL.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp