Lernen von Tri-Modalen Embeddings für Zero-Shot Soundscape-Kartierung

Wir konzentrieren uns auf die Aufgabe der Klanglandschaftskartierung, bei der die wahrscheinlichsten Geräusche vorhergesagt werden, die an einem bestimmten geografischen Ort wahrgenommen werden könnten. Hierzu nutzen wir neuere State-of-the-Art-Modelle, um geotaggte Audioaufnahmen, eine textuelle Beschreibung des Audiomaterials sowie eine Luftaufnahme des Aufnahmeortes mittels kontrastiver Vortrainierung zu kodieren. Das Ergebnis ist ein gemeinsamer Embedding-Raum für die drei Modalitäten, der die Erstellung von Klanglandschaftskarten für beliebige geografische Regionen anhand von textuellen oder audio-basierten Abfragen ermöglicht. Anhand des SoundingEarth-Datensatzes zeigen wir, dass unser Ansatz die bestehende State-of-the-Art erheblich übertrifft, wobei die Recall@100 für die Bild-zu-Audio-Prädiktion von 0,256 auf 0,450 steigt. Der Quellcode ist unter https://github.com/mvrl/geoclap verfügbar.