HyperAIHyperAI

Command Palette

Search for a command to run...

Discrimination audiovisuelle d'instances avec accord intermodal

Pedro Morgado Nuno Vasconcelos Ishan Misra

Résumé

Nous présentons une approche d'apprentissage auto-supervisé pour apprendre des représentations audiovisuelles à partir de vidéos et d'audio. Notre méthode utilise l'apprentissage par contraste pour la discrimination intermodale entre vidéo et audio, et vice versa. Nous démontrons que l'optimisation de la discrimination intermodale, plutôt que de la discrimination intramodale, est cruciale pour apprendre de bonnes représentations à partir de vidéos et d'audio. Grâce à cette intuition simple mais puissante, notre méthode obtient des performances très compétitives lorsqu'elle est affinée sur des tâches de reconnaissance d'actions. De plus, alors que les travaux récents en apprentissage par contraste définissent les échantillons positifs et négatifs comme des instances individuelles, nous généralisons cette définition en explorant l'accord intermodal. Nous regroupons plusieurs instances comme positives en mesurant leur similarité dans les espaces de caractéristiques vidéo et audio. L'accord intermodal crée de meilleurs ensembles positifs et négatifs, ce qui nous permet de calibrer les similarités visuelles en recherchant une discrimination intramodale des instances positives, et d'obtenir des gains significatifs sur les tâches downstream (en aval).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp