HyperAIHyperAI

Command Palette

Search for a command to run...

Embeddings Multimodaux Coordonnés pour la Classification et la Recherche Zéro-shot Généralisées de Vidéos Audiovisuelles

Kranti Kumar Parida Neeraj Matiyali Tanaya Guha Gaurav Sharma

Résumé

Nous présentons une approche multimodale audiovisuelle pour la tâche d'apprentissage par zéro-shot (ZSL) en classification et recherche de vidéos. Bien que l'apprentissage par zéro-shot ait été largement étudié ces dernières années, il a principalement été limité à la modalité visuelle et aux images. Nous démontrons que les modalités audio et visuelle sont toutes deux essentielles pour l'apprentissage par zéro-shot des vidéos. Comme un ensemble de données adapté à cette tâche n'est actuellement pas disponible, nous avons également construit un jeu de données multimodal approprié comprenant 33 classes avec 156 416 vidéos, tirées d'un ensemble de données existant sur les événements sonores à grande échelle. Nous montrons empiriquement que les performances s'améliorent en ajoutant la modalité audio pour les deux tâches d'apprentissage par zéro-shot en classification et en recherche, lorsque des méthodes d'apprentissage d'embeddings multimodales sont utilisées. Nous proposons également une nouvelle méthode pour prédire la modalité « dominante » en utilisant un réseau d'attention modale appris conjointement. L'attention est apprise dans un cadre semi-supervisé, ce qui nous dispense de toute étiquetage explicite supplémentaire pour les modalités. Nous fournissons une validation qualitative de l'attention spécifique à chaque modalité, qui généralise également avec succès aux classes de test inconnues.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp