HyperAIHyperAI

Command Palette

Search for a command to run...

Découverte conjointe d’objets visuels et de mots parlés à partir d’entrées sensorielles brutes

David Harwath Adrià Recasens Dídac Surís Galen Chuang Antonio Torralba James Glass

Résumé

Dans cet article, nous explorons des modèles de réseaux neuronaux capables d'apprendre à associer des segments de légendes audio parlées aux parties sémantiquement pertinentes des images naturelles auxquelles elles se réfèrent. Nous démontrons que ces localisations associatives audio-visuelles émergent des représentations internes du réseau apprises comme sous-produit de l'entraînement pour effectuer une tâche de recherche d'image-audio. Nos modèles opèrent directement sur les pixels de l'image et la forme d'onde du discours, et ne s'appuient sur aucune supervision conventionnelle sous forme d'étiquettes, de segmentations ou d'alignements entre les modalités lors de l'entraînement. Nous menons une analyse en utilisant les jeux de données Places 205 et ADE20k, démontrant que nos modèles apprennent implicitement des détecteurs d'objets et de mots couplés sémantiquement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp