HyperAIHyperAI

Command Palette

Search for a command to run...

Attention temporelle et intermodale pour l'apprentissage audiovisuel à zéro shot

Otniel-Bogdan Mercea Thomas Hummel A. Sophia Koepke Zeynep Akata

Résumé

L'apprentissage visio-audio généralisé à vue zéro pour la classification vidéo nécessite de comprendre les relations entre les informations audio et visuelles afin de pouvoir reconnaître des échantillons appartenant à des classes nouvelles et inconnues au moment du test. L'alignement sémantique et temporel naturel entre les données audio et visuelles dans les données vidéo peut être exploité pour apprendre des représentations puissantes qui se généralisent aux classes inconnues au moment du test. Nous proposons un cadre d'attention croisée multimodale et temporelle (\modelName) pour l'apprentissage visio-audio généralisé à vue zéro. Ses entrées sont des caractéristiques audio et visuelles temporalement alignées, obtenues à partir de réseaux pré-entraînés. Encourager le cadre à se concentrer sur la correspondance intermodale au fil du temps plutôt que sur l'auto-attention au sein des modalités améliore considérablement les performances. Nous démontrons que notre cadre proposé, qui intègre des caractéristiques temporelles, offre des performances de pointe sur les bancs d'essai \ucf, \vgg et \activity pour l'apprentissage à vue zéro (généralisé). Le code permettant de reproduire tous les résultats est disponible à l'adresse suivante : \url{https://github.com/ExplainableML/TCAF-GZSL}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Attention temporelle et intermodale pour l'apprentissage audiovisuel à zéro shot | Articles | HyperAI