HyperAIHyperAI

Command Palette

Search for a command to run...

Un Modèle Léger pour la Détection d'Orateur Actif

Liao Junhua ; Duan Haihan ; Feng Kanghui ; Zhao Wanbing ; Yang Yanbing ; Chen Liangyin

Résumé

La détection de l'orateur actif est une tâche complexe dans la compréhension des scénarios audiovisuels, visant à identifier qui parle dans un ou plusieurs scénarios d'orateurs. Cette tâche a reçu une attention considérable car elle est cruciale pour des applications telles que la diarisation vocale, le suivi de l'orateur et le montage vidéo automatique. Les études existantes tentent d'améliorer les performances en entrant plusieurs informations candidates et en concevant des modèles complexes. Bien que ces méthodes aient obtenu des performances exceptionnelles, leur consommation élevée de mémoire et de puissance de calcul les rend difficiles à appliquer dans des scénarios à ressources limitées. Par conséquent, nous avons construit une architecture légère pour la détection de l'orateur actif en réduisant le nombre de candidats d'entrée, en séparant les convolutions 2D et 3D pour l'extraction de caractéristiques audiovisuelles, et en utilisant une unité récurrente à porte (GRU) avec une faible complexité computationnelle pour la modélisation intermodale. Les résultats expérimentaux sur le jeu de données AVA-ActiveSpeaker montrent que notre cadre atteint des performances mAP compétitives (94,1% contre 94,2%), tout en présentant des coûts en ressources nettement inférieurs aux méthodes de pointe, notamment en termes de paramètres du modèle (1,0M contre 22,5M, environ 23 fois moins) et de FLOPs (0,6G contre 2,6G, environ 4 fois moins). De plus, notre cadre se distingue également par d'excellentes performances sur le jeu de données Columbia, démontrant ainsi sa bonne robustesse. Le code source et les poids du modèle sont disponibles à l'adresse suivante : https://github.com/Junhua-Liao/Light-ASD.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Un Modèle Léger pour la Détection d'Orateur Actif | Articles | HyperAI