HyperAIHyperAI

Command Palette

Search for a command to run...

Séparer le « Chirp » du « Chat » : Ancrage visuel auto-supervisé du son et du langage

Mark Hamilton Andrew Zisserman John R. Hershey William T. Freeman

Résumé

Nous présentons DenseAV, une nouvelle architecture de codage en double flux qui apprend des caractéristiques à haute résolution, sémantiquement significatives et alignées audiovisuellement uniquement en regardant des vidéos. Nous montrons que DenseAV peut découvrir le « sens » des mots et la « localisation » des sons sans supervision explicite de localisation. De plus, elle découvre et distingue automatiquement ces deux types d'associations sans supervision. Nous démontrons que les capacités de localisation de DenseAV proviennent d'un nouvel opérateur d'agrégation de caractéristiques multi-têtes qui compare directement les représentations d'images et de sons denses pour l'apprentissage par contraste. En revanche, de nombreux autres systèmes qui apprennent des représentations audio et vidéo « globales » ne peuvent pas localiser les mots et les sons. Enfin, nous contribuons avec deux nouveaux jeux de données pour améliorer l'évaluation des représentations AV (audiovisuelles) par segmentation sémantique guidée par la parole et le son. Sur ces jeux de données ainsi que sur d'autres, nous montrons que DenseAV surpasse considérablement l'état de l'art précédent en matière de segmentation sémantique guidée par la parole et le son. DenseAV surpass également l'état de l'art précédent, ImageBind, dans la recherche intermodale avec moins de la moitié des paramètres. Page du projet : https://aka.ms/denseav{https://aka.ms/denseav}


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp