HyperAIHyperAI

Command Palette

Search for a command to run...

Regardez, Écoutez et Apprenez

Relja Arandjelović†, [email protected] Andrew Zisserman†,∗, [email protected]

Résumé

Nous abordons la question suivante : que peut-on apprendre en regardant et en écoutant un grand nombre de vidéos non étiquetées ? Il existe une source précieuse d'information, jusqu'à présent inexploitée, contenue dans la vidéo elle-même -- la correspondance entre les flux visuels et audio. Nous introduisons une nouvelle tâche d'apprentissage appelée « Correspondance Audio-Visuelle » qui utilise cette correspondance. Il est démontré que l'entraînement de réseaux visuels et audio à partir de zéro, sans aucune supervision supplémentaire autre que les vidéos brutes et non contraintes elles-mêmes, permet de résoudre avec succès cette tâche, et, plus intéressamment encore, aboutit à de bonnes représentations visuelles et audio. Ces caractéristiques établissent un nouveau niveau de référence sur deux benchmarks de classification sonore, et se comparent favorablement aux approches auto-supervisées les plus avancées pour la classification sur ImageNet. Nous montrons également que le réseau est capable de localiser des objets dans les deux modalités, ainsi que d'effectuer des tâches de reconnaissance fine.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp