il y a 8 mois

Résumé

L'apprentissage visio-audio généralisé à vue zéro pour la classification vidéo nécessite de comprendre les relations entre les informations audio et visuelles afin de pouvoir reconnaître des échantillons appartenant à des classes nouvelles et inconnues au moment du test. L'alignement sémantique et temporel naturel entre les données audio et visuelles dans les données vidéo peut être exploité pour apprendre des représentations puissantes qui se généralisent aux classes inconnues au moment du test. Nous proposons un cadre d'attention croisée multimodale et temporelle (\modelName) pour l'apprentissage visio-audio généralisé à vue zéro. Ses entrées sont des caractéristiques audio et visuelles temporalement alignées, obtenues à partir de réseaux pré-entraînés. Encourager le cadre à se concentrer sur la correspondance intermodale au fil du temps plutôt que sur l'auto-attention au sein des modalités améliore considérablement les performances. Nous démontrons que notre cadre proposé, qui intègre des caractéristiques temporelles, offre des performances de pointe sur les bancs d'essai \ucf, \vgg et \activity pour l'apprentissage à vue zéro (généralisé). Le code permettant de reproduire tous les résultats est disponible à l'adresse suivante : \url{https://github.com/ExplainableML/TCAF-GZSL}.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Représentation Multimodale

Reconnaissance D'action

Multimodal

Vision Par Ordinateur

Tâche

Otniel-Bogdan Mercea Thomas Hummel A. Sophia Koepke Zeynep Akata

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Représentation Multimodale

Reconnaissance D'action

Multimodal

Vision Par Ordinateur

Tâche

Otniel-Bogdan Mercea Thomas Hummel A. Sophia Koepke Zeynep Akata

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Attention temporelle et intermodale pour l'apprentissage audiovisuel à zéro shot

Otniel-Bogdan Mercea Thomas Hummel A. Sophia Koepke Zeynep Akata

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Attention temporelle et intermodale pour l'apprentissage audiovisuel à zéro shot

Otniel-Bogdan Mercea Thomas Hummel A. Sophia Koepke Zeynep Akata

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Attention temporelle et intermodale pour l'apprentissage audiovisuel à zéro shot

Otniel-Bogdan Mercea Thomas Hummel A. Sophia Koepke Zeynep Akata

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters