HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage d'embeddings tri-modaux pour la cartographie de paysages sonores zéro-shot

Subash Khanal Srikumar Sastry Aayush Dhakal Nathan Jacobs

Résumé

Nous nous concentrons sur la tâche de cartographie des paysages sonores, qui consiste à prédire les sons les plus probables perçus à un emplacement géographique donné. Nous utilisons des modèles récents d'avant-garde pour encoder des données audio géolocalisées, une description textuelle de ces audio et une image aérienne du lieu de capture, grâce à un pré-entraînement contrastif. Le résultat final est un espace d'embeddings partagé pour les trois modalités, permettant ainsi de construire des cartes de paysages sonores pour toute région géographique à partir de requêtes textuelles ou audio. En utilisant le jeu de données SoundingEarth, nous constatons que notre approche surpasse significativement l'état de l'art existant, avec une amélioration du Recall@100 (image vers audio) passant de 0,256 à 0,450. Notre code est disponible à l'adresse suivante : https://github.com/mvrl/geoclap.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp