HyperAIHyperAI
il y a 2 mois

Apprentissage audiovisuel zéro-shot hyperbolique

Hong, Jie ; Hayder, Zeeshan ; Han, Junlin ; Fang, Pengfei ; Harandi, Mehrtash ; Petersson, Lars
Apprentissage audiovisuel zéro-shot hyperbolique
Résumé

L'apprentissage visio-audio à zéro exemple vise à classer des échantillons composés d'une paire de séquences audio et vidéo correspondantes appartenant à des classes qui n'étaient pas présentes lors de l'entraînement. Une analyse des données visio-audio révèle un degré important d'hyperbolicité, suggérant le potentiel avantage de l'utilisation d'une transformation hyperbolique pour réaliser un apprentissage géométrique prenant en compte la courbure, dans le but d'explorer des structures de données hiérarchiques plus complexes pour cette tâche. L'approche proposée utilise une nouvelle fonction de perte qui intègre l'alignement inter-modalités entre les caractéristiques vidéo et audio dans l'espace hyperbolique. De plus, nous explorons l'utilisation de plusieurs courbures adaptatives pour les projections hyperboliques. Les résultats expérimentaux sur cette tâche très difficile montrent que notre approche hyperbolique pour l'apprentissage à zéro exemple surpasse la méthode SOTA (State Of The Art) sur trois jeux de données : VGGSound-GZSL, UCF-GZSL et ActivityNet-GZSL, avec une amélioration respective du moyenne harmonique (HM) d'environ 3,0 %, 7,0 % et 5,3 %.

Apprentissage audiovisuel zéro-shot hyperbolique | Articles de recherche récents | HyperAI