HyperAIHyperAI
il y a 2 mois

AVGZSLNet : Apprentissage généralisé à zéro coup audio-visuel par reconstruction des caractéristiques d'étiquette à partir d'embeddings multi-modaux

Mazumder, Pratik ; Singh, Pravendra ; Parida, Kranti Kumar ; Namboodiri, Vinay P.
AVGZSLNet : Apprentissage généralisé à zéro coup audio-visuel par reconstruction des caractéristiques d'étiquette à partir d'embeddings multi-modaux
Résumé

Dans cet article, nous proposons une nouvelle approche pour l'apprentissage à zéro tirage généralisé dans un cadre multi-modal, où des classes inédites d'audio/vidéo apparaissent lors des tests, bien qu'elles n'aient pas été observées pendant l'entraînement. Nous utilisons la sémantique des plongements textuels comme moyen d'apprentissage à zéro tirage en alignant les plongements audio et vidéo avec l'espace de caractéristiques textuelles des étiquettes de classe correspondantes. Notre approche repose sur un décodeur inter-modal et une perte triplète composite. Le décodeur inter-modal impose une contrainte selon laquelle les caractéristiques textuelles des étiquettes de classe peuvent être reconstruites à partir des plongements audio et vidéo des points de données. Cela aide les plongements audio et vidéo à se rapprocher du plongement textuel de l'étiquette de classe. La perte triplète composite utilise les plongements audio, vidéo et textuel. Elle contribue à rapprocher les plongements de la même classe et à éloigner ceux de classes différentes dans un cadre multi-modal. Cela permet au réseau de mieux performer sur la tâche d'apprentissage à zéro tirage multi-modal. Importamment, notre approche d'apprentissage à zéro tirage multi-modal fonctionne même si une modalité est absente lors des tests. Nous évaluons notre approche sur les tâches de classification et de recherche à zéro tirage généralisées et montrons que notre méthode surpasses d'autres modèles, tant en présence d'une seule modalité que lorsqu'il y a plusieurs modalités. Nous validons notre approche en la comparant avec des méthodes précédentes et en utilisant diverses ablations (ablation studies).

AVGZSLNet : Apprentissage généralisé à zéro coup audio-visuel par reconstruction des caractéristiques d'étiquette à partir d'embeddings multi-modaux | Articles de recherche récents | HyperAI