HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von Tri-Modalen Embeddings für Zero-Shot Soundscape-Kartierung

Subash Khanal Srikumar Sastry Aayush Dhakal Nathan Jacobs

Zusammenfassung

Wir konzentrieren uns auf die Aufgabe der Klanglandschaftskartierung, bei der die wahrscheinlichsten Geräusche vorhergesagt werden, die an einem bestimmten geografischen Ort wahrgenommen werden könnten. Hierzu nutzen wir neuere State-of-the-Art-Modelle, um geotaggte Audioaufnahmen, eine textuelle Beschreibung des Audiomaterials sowie eine Luftaufnahme des Aufnahmeortes mittels kontrastiver Vortrainierung zu kodieren. Das Ergebnis ist ein gemeinsamer Embedding-Raum für die drei Modalitäten, der die Erstellung von Klanglandschaftskarten für beliebige geografische Regionen anhand von textuellen oder audio-basierten Abfragen ermöglicht. Anhand des SoundingEarth-Datensatzes zeigen wir, dass unser Ansatz die bestehende State-of-the-Art erheblich übertrifft, wobei die Recall@100 für die Bild-zu-Audio-Prädiktion von 0,256 auf 0,450 steigt. Der Quellcode ist unter https://github.com/mvrl/geoclap verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen von Tri-Modalen Embeddings für Zero-Shot Soundscape-Kartierung | Paper | HyperAI