HyperAIHyperAI
il y a 2 mois

Attention temporelle et intermodale pour l'apprentissage audiovisuel à zéro shot

Mercea, Otniel-Bogdan ; Hummel, Thomas ; Koepke, A. Sophia ; Akata, Zeynep
Attention temporelle et intermodale pour l'apprentissage audiovisuel à zéro shot
Résumé

L'apprentissage visio-audio généralisé à vue zéro pour la classification vidéo nécessite de comprendre les relations entre les informations audio et visuelles afin de pouvoir reconnaître des échantillons appartenant à des classes nouvelles et inconnues au moment du test. L'alignement sémantique et temporel naturel entre les données audio et visuelles dans les données vidéo peut être exploité pour apprendre des représentations puissantes qui se généralisent aux classes inconnues au moment du test. Nous proposons un cadre d'attention croisée multimodale et temporelle (\modelName) pour l'apprentissage visio-audio généralisé à vue zéro. Ses entrées sont des caractéristiques audio et visuelles temporalement alignées, obtenues à partir de réseaux pré-entraînés. Encourager le cadre à se concentrer sur la correspondance intermodale au fil du temps plutôt que sur l'auto-attention au sein des modalités améliore considérablement les performances. Nous démontrons que notre cadre proposé, qui intègre des caractéristiques temporelles, offre des performances de pointe sur les bancs d'essai \ucf, \vgg et \activity pour l'apprentissage à vue zéro (généralisé). Le code permettant de reproduire tous les résultats est disponible à l'adresse suivante : \url{https://github.com/ExplainableML/TCAF-GZSL}.

Attention temporelle et intermodale pour l'apprentissage audiovisuel à zéro shot | Articles de recherche récents | HyperAI