HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage généralisé zéro-shot audiovisuel avec attention intermodale et langage

Mercea Otniel-Bogdan ; Riesch Lukas ; Koepke A. Sophia ; Akata Zeynep

Résumé

L'apprentissage de la classification de données vidéo appartenant à des classes non incluses dans les données d'entraînement, c'est-à-dire l'apprentissage par zéro-shot basé sur la vidéo, est un défi. Nous supposons que l'alignement naturel entre les modalités audio et visuelle dans les données vidéo fournit un signal d'entraînement riche pour l'apprentissage de représentations multi-modales discriminantes. En nous concentrant sur la tâche relativement peu explorée de l'apprentissage par zéro-shot audio-visuel, nous proposons d'apprendre des représentations multi-modales à partir des données audio-visuelles en utilisant une attention croisée et d'exploiter les plongements textuels des étiquettes pour transférer les connaissances des classes vues vers les classes non vues.Allant plus loin, dans notre cadre généralisé d'apprentissage par zéro-shot audio-visuel, nous incluons toutes les classes d'entraînement dans l'espace de recherche au moment du test, ce qui agit comme des distracteurs et augmente la difficulté tout en rendant le cadre plus réaliste. En raison du manque d'un benchmark unifié dans ce domaine, nous introduisons un benchmark (généralisé) d'apprentissage par zéro-shot sur trois jeux de données audio-visuelles de tailles et de difficultés variées : VGGSound, UCF et ActivityNet, en veillant à ce que les classes test non vues n'apparaissent pas dans le jeu de données utilisé pour l'entraînement supervisé des modèles profonds de base.En comparant plusieurs méthodes pertinentes et récentes, nous montrons que notre modèle AVCA proposé atteint des performances de pointe sur les trois jeux de données. Le code et les données sont disponibles à l'adresse \url{https://github.com/ExplainableML/AVCA-GZSL}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp