HyperAIHyperAI
vor 15 Tagen

Lernen von Tri-Modalen Embeddings für Zero-Shot Soundscape-Kartierung

Subash Khanal, Srikumar Sastry, Aayush Dhakal, Nathan Jacobs
Lernen von Tri-Modalen Embeddings für Zero-Shot Soundscape-Kartierung
Abstract

Wir konzentrieren uns auf die Aufgabe der Klanglandschaftskartierung, bei der die wahrscheinlichsten Geräusche vorhergesagt werden, die an einem bestimmten geografischen Ort wahrgenommen werden könnten. Hierzu nutzen wir neuere State-of-the-Art-Modelle, um geotaggte Audioaufnahmen, eine textuelle Beschreibung des Audiomaterials sowie eine Luftaufnahme des Aufnahmeortes mittels kontrastiver Vortrainierung zu kodieren. Das Ergebnis ist ein gemeinsamer Embedding-Raum für die drei Modalitäten, der die Erstellung von Klanglandschaftskarten für beliebige geografische Regionen anhand von textuellen oder audio-basierten Abfragen ermöglicht. Anhand des SoundingEarth-Datensatzes zeigen wir, dass unser Ansatz die bestehende State-of-the-Art erheblich übertrifft, wobei die Recall@100 für die Bild-zu-Audio-Prädiktion von 0,256 auf 0,450 steigt. Der Quellcode ist unter https://github.com/mvrl/geoclap verfügbar.

Lernen von Tri-Modalen Embeddings für Zero-Shot Soundscape-Kartierung | Neueste Forschungsarbeiten | HyperAI